論文の概要: Hierarchical Deep Deterministic Policy Gradient for Autonomous Maze Navigation of Mobile Robots
- arxiv url: http://arxiv.org/abs/2508.04994v1
- Date: Thu, 07 Aug 2025 03:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.693003
- Title: Hierarchical Deep Deterministic Policy Gradient for Autonomous Maze Navigation of Mobile Robots
- Title(参考訳): 移動ロボットの自律迷路ナビゲーションのための階層的深い決定論的ポリシー勾配
- Authors: Wenjie Hu, Ye Zhou, Hann Woei Ho,
- Abstract要約: 本稿では,高レベルかつ低レベルなポリシーを含む効率的な階層DDPG(HDDPG)アルゴリズムを提案する。
これは標準DDPGとそのバリエーションの制限を大幅に克服し、成功率を56.59%以上改善し、平均報酬を519.03以上引き上げた。
- 参考スコア(独自算出の注目度): 5.834520772858807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maze navigation is a fundamental challenge in robotics, requiring agents to traverse complex environments efficiently. While the Deep Deterministic Policy Gradient (DDPG) algorithm excels in control tasks, its performance in maze navigation suffers from sparse rewards, inefficient exploration, and long-horizon planning difficulties, often leading to low success rates and average rewards, sometimes even failing to achieve effective navigation. To address these limitations, this paper proposes an efficient Hierarchical DDPG (HDDPG) algorithm, which includes high-level and low-level policies. The high-level policy employs an advanced DDPG framework to generate intermediate subgoals from a long-term perspective and on a higher temporal scale. The low-level policy, also powered by the improved DDPG algorithm, generates primitive actions by observing current states and following the subgoal assigned by the high-level policy. The proposed method enhances stability with off-policy correction, refining subgoal assignments by relabeling historical experiences. Additionally, adaptive parameter space noise is utilized to improve exploration, and a reshaped intrinsic-extrinsic reward function is employed to boost learning efficiency. Further optimizations, including gradient clipping and Xavier initialization, are employed to improve robustness. The proposed algorithm is rigorously evaluated through numerical simulation experiments executed using the Robot Operating System (ROS) and Gazebo. Regarding the three distinct final targets in autonomous maze navigation tasks, HDDPG significantly overcomes the limitations of standard DDPG and its variants, improving the success rate by at least 56.59% and boosting the average reward by a minimum of 519.03 compared to baseline algorithms.
- Abstract(参考訳): 迷路ナビゲーションはロボット工学の基本的な課題であり、エージェントは複雑な環境を効率的に横断する必要がある。
DDPG(Deep Deterministic Policy Gradient)アルゴリズムは制御タスクに優れるが、迷路ナビゲーションのパフォーマンスは疎い報奨、非効率な探索、長期計画の難しさに悩まされ、しばしば成功率や平均報酬の低下につながる。
これらの制約に対処するために,高レベルかつ低レベルなポリシーを含む効率的な階層DDPG(HDDPG)アルゴリズムを提案する。
高レベル政策では、長期的および高テンポラルスケールから中間サブゴールを生成するために、高度なDDPGフレームワークを採用している。
低レベルポリシーは、改良されたDDPGアルゴリズムにもとづいて、現在の状態を観察し、ハイレベルポリシーに割り当てられたサブゴールに従うことで原始的なアクションを生成する。
提案手法は,歴史的経験を緩和することにより,非政治的修正による安定性の向上,サブゴール割り当ての精錬を行う。
さらに、適応パラメータ空間雑音を利用して探索を改善するとともに、学習効率を高めるために、変形した本質的内在的報酬関数を用いる。
グラデーションクリッピングやザビエル初期化などのさらなる最適化は、ロバスト性を改善するために用いられる。
提案アルゴリズムはロボットオペレーティング・システム(ROS)とガゼボを用いて数値シミュレーション実験により厳密に評価する。
自律迷路ナビゲーションタスクにおける3つの異なる最終目標に関して、HDDPGは標準DDPGとその変種に対する制限を著しく克服し、成功率を56.59%以上改善し、ベースラインアルゴリズムと比較して平均報酬を519.03以下に向上させた。
関連論文リスト
- Robust Deterministic Policy Gradient for Disturbance Attenuation and Its Application to Quadrotor Control [5.084000938840218]
本稿ではロバスト決定性ポリシー勾配(RDPG)と呼ばれる強化学習アルゴリズムを提案する。
RDPGは2プレイヤーゼロサムダイナミックゲームとして$H_infty$制御問題を定式化している。
次に、決定論的政策勾配(DPG)とその深い強化学習を用いて、効果的な外乱減衰を伴う堅牢な制御政策を訓練する。
論文 参考訳(メタデータ) (2025-02-28T13:58:22Z) - Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction [71.81851971324187]
本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。
HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。
挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - Autonomous Navigation of Unmanned Vehicle Through Deep Reinforcement Learning [1.3725832537448668]
本稿では,アッカーマンロボットのモデルとDDPGアルゴリズムの構造と応用について詳述する。
その結果、DDPGアルゴリズムは経路計画タスクにおいて従来のディープQネットワーク(DQN)およびダブルディープQネットワーク(DDQN)アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-07-18T05:18:59Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Autonomous Platoon Control with Integrated Deep Reinforcement Learning
and Dynamic Programming [12.661547303266252]
小隊に複数の追従車両がある場合、安定的で効率的な車両追従ポリシーを学ぶことはより困難である。
我々は、自律型小隊制御ポリシーを学ぶために統合DRLと動的プログラミングアプローチを採用する。
本研究では,Sweepingを用いたFinite-Horizon-DDPGというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-15T13:45:47Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Multi-Agent Path Planning based on MPC and DDPG [14.793341914236166]
モデル予測制御(MPC)とDeep Deterministic Policy Gradient(DDPG)を組み合わせた新しいアルゴリズムを提案する。
ddpg with continuous action spaceは、ロボットに学習と自律的な意思決定機能を提供するように設計されている。
航空母艦デッキや四角形などの不確定な環境でのシミュレーション実験にunity 3dを用いる。
論文 参考訳(メタデータ) (2021-02-26T02:57:13Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z) - Obstacle Avoidance and Navigation Utilizing Reinforcement Learning with
Reward Shaping [7.132368785057316]
我々は,改良された報酬形成技術を用いて,Deep Deterministic Policy Gradient (DDPG) と Proximal Policy Optimizationアルゴリズムを提案する。
本研究では,従来のDDPGとPPOの性能と実際の移動ロボットによるシミュレーションの改訂版を比較し,提案アルゴリズムがより良い結果を得ることを示す。
論文 参考訳(メタデータ) (2020-03-28T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。