論文の概要: Hybrid DQN-TD3 Reinforcement Learning for Autonomous Navigation in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2510.26646v1
- Date: Thu, 30 Oct 2025 16:12:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.900674
- Title: Hybrid DQN-TD3 Reinforcement Learning for Autonomous Navigation in Dynamic Environments
- Title(参考訳): 動的環境における自律ナビゲーションのためのハイブリッドDQN-TD3強化学習
- Authors: Xiaoyi He, Danggui Chen, Zhenshuo Zhang, Zimeng Bai,
- Abstract要約: 本稿では、離散的なサブゴール選択のための高レベルなディープQネットワーク(DQN)と、連続的な動作のための低レベルなツイン遅延Deep Deterministic Policy Gradient(TD3)コントローラを組み合わせた階層的パス計画制御フレームワークを提案する。
我々は、安全でない動きを防止できるLiDARベースの安全ゲートとともに、実用的な報酬形成スキーム(方向、距離、障害物回避、動作の平滑性、衝突罰、時間罰、進行)を設計する。
- 参考スコア(独自算出の注目度): 1.241204035960416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a hierarchical path-planning and control framework that combines a high-level Deep Q-Network (DQN) for discrete sub-goal selection with a low-level Twin Delayed Deep Deterministic Policy Gradient (TD3) controller for continuous actuation. The high-level module selects behaviors and sub-goals; the low-level module executes smooth velocity commands. We design a practical reward shaping scheme (direction, distance, obstacle avoidance, action smoothness, collision penalty, time penalty, and progress), together with a LiDAR-based safety gate that prevents unsafe motions. The system is implemented in ROS + Gazebo (TurtleBot3) and evaluated with PathBench metrics, including success rate, collision rate, path efficiency, and re-planning efficiency, in dynamic and partially observable environments. Experiments show improved success rate and sample efficiency over single-algorithm baselines (DQN or TD3 alone) and rule-based planners, with better generalization to unseen obstacle configurations and reduced abrupt control changes. Code and evaluation scripts are available at the project repository.
- Abstract(参考訳): 本稿では、離散的なサブゴール選択のための高レベルなディープQネットワーク(DQN)と、連続的な動作のための低レベルなツイン遅延Deep Deterministic Policy Gradient(TD3)コントローラを組み合わせた階層的パス計画制御フレームワークを提案する。
高レベルモジュールは振る舞いとサブゴールを選択し、低レベルモジュールはスムーズなベロシティコマンドを実行する。
我々は、安全でない動きを防ぐLiDARベースの安全ゲートとともに、実用的な報酬形成スキーム(方向、距離、障害物回避、行動平滑性、衝突罰、時間刑、進行)を設計する。
このシステムはROS + Gazebo (TurtleBot3)で実装され、動的かつ部分的に観測可能な環境において、成功率、衝突速度、経路効率、再計画効率を含むPathBenchメトリクスで評価される。
実験により、単一アルゴリズムベースライン(DQNまたはTD3単独)とルールベースのプランナよりも成功率とサンプル効率が向上し、障害物構成の未確認化と突然の制御変更の低減が図られた。
コードと評価スクリプトはプロジェクトリポジトリで入手できる。
関連論文リスト
- NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Bi-Level Optimization Augmented with Conditional Variational Autoencoder
for Autonomous Driving in Dense Traffic [0.9281671380673306]
本稿では、最適行動決定と結果の軌跡を共同で計算するパラメータ化バイレベル最適化を提案する。
当社のアプローチは,GPUアクセラレーションバッチを使用してリアルタイムに動作し,変分オートエンコーダがウォームスタート戦略を学習する。
本手法は, 運転効率の競争力に優れながら, 衝突速度の観点から, 最先端モデル予測制御とRLアプローチより優れる。
論文 参考訳(メタデータ) (2022-12-05T12:56:42Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Trajectory Planning for Autonomous Vehicles Using Hierarchical
Reinforcement Learning [21.500697097095408]
不確実かつ動的条件下で安全な軌道を計画することは、自律運転問題を著しく複雑にする。
RRT(Rapidly Exploring Random Trees)のような現在のサンプリングベース手法は、高い計算コストのため、この問題には理想的ではない。
軌道計画のための階層型強化学習構造とPID(Proportional-Integral-Derivative)コントローラを提案する。
論文 参考訳(メタデータ) (2020-11-09T20:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。