論文の概要: An Improved Algorithm of Robot Path Planning in Complex Environment
Based on Double DQN
- arxiv url: http://arxiv.org/abs/2107.11245v1
- Date: Fri, 23 Jul 2021 14:03:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-26 13:48:21.068578
- Title: An Improved Algorithm of Robot Path Planning in Complex Environment
Based on Double DQN
- Title(参考訳): 二重dqnに基づく複雑な環境におけるロボット経路計画の改善アルゴリズム
- Authors: Fei Zhang, Chaochen Gu, and Feng Yang
- Abstract要約: 本稿では、A*とRRT(Rapidly-Exploring Random Tree)を参考に、Double DQN(DDQN)の改良を提案する。
シミュレーション実験により, DDQNの有効性が検証された。
- 参考スコア(独自算出の注目度): 4.161177874372099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Q Network (DQN) has several limitations when applied in planning a path
in environment with a number of dilemmas according to our experiment. The
reward function may be hard to model, and successful experience transitions are
difficult to find in experience replay. In this context, this paper proposes an
improved Double DQN (DDQN) to solve the problem by reference to A* and
Rapidly-Exploring Random Tree (RRT). In order to achieve the rich experiments
in experience replay, the initialization of robot in each training round is
redefined based on RRT strategy. In addition, reward for the free positions is
specially designed to accelerate the learning process according to the
definition of position cost in A*. The simulation experimental results validate
the efficiency of the improved DDQN, and robot could successfully learn the
ability of obstacle avoidance and optimal path planning in which DQN or DDQN
has no effect.
- Abstract(参考訳): 実験によると,DQN(Deep Q Network)は,多数のジレンマのある環境での経路計画に適用する場合,いくつかの制限がある。
報酬関数はモデル化が難しく、経験の遷移の成功は経験の再生で見つけるのが難しい。
本稿では, a* と高速探索確率木 (rrt) を参照して解くために, 改良された二重dqn (ddqn) を提案する。
経験リプレイにおける豊富な実験を実現するため、各トレーニングラウンドにおけるロボットの初期化はRTR戦略に基づいて再定義される。
また、自由位置に対する報酬は、a*の位置コストの定義に従って学習プロセスを加速するように特別に設計されている。
シミュレーション実験により,改良されたDDQNの有効性を検証し,DQNやDDQNに効果のない障害物回避能力と最適経路計画の学習に成功した。
関連論文リスト
- Back-stepping Experience Replay with Application to Model-free Reinforcement Learning for a Soft Snake Robot [15.005962159112002]
Back-stepping Experience Replay (BER)は、任意の外部強化学習アルゴリズムと互換性がある。
柔らかいヘビロボットの移動とナビゲーションのためのモデルレスRLアプローチにおけるBERの適用について述べる。
論文 参考訳(メタデータ) (2024-01-21T02:17:16Z) - M$^2$DQN: A Robust Method for Accelerating Deep Q-learning Network [6.689964384669018]
我々は,Deep Q-Network(M$2$DQN)におけるMax-Mean損失を利用したフレームワークを提案する。
トレーニングステップで1バッチの経験をサンプリングする代わりに、経験の再生からいくつかのバッチをサンプリングし、これらのバッチの最大TDエラーなどのパラメータを更新する。
ジムゲームにおけるDouble DQN(Double DQN)を用いて,このフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2022-09-16T09:20:35Z) - Relay Hindsight Experience Replay: Continual Reinforcement Learning for
Robot Manipulation Tasks with Sparse Rewards [26.998587654269873]
我々はRelay-HER(RHER)と呼ばれるモデルなし連続RLアルゴリズムを提案する。
提案手法はまず,元の長軸タスクを段階的に複雑化した新しいサブタスクに分解,再配置する。
実験の結果,5つのロボット操作作業において,バニラ-HERに比べてRHERのサンプル効率が有意に向上したことが示された。
論文 参考訳(メタデータ) (2022-08-01T13:30:01Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Deep Reinforcement Learning with Spiking Q-learning [51.386945803485084]
スパイクニューラルネットワーク(SNN)は、少ないエネルギー消費で人工知能(AI)を実現することが期待されている。
SNNと深部強化学習(RL)を組み合わせることで、現実的な制御タスクに有望なエネルギー効率の方法を提供する。
論文 参考訳(メタデータ) (2022-01-21T16:42:11Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - RocketQA: An Optimized Training Approach to Dense Passage Retrieval for
Open-Domain Question Answering [55.280108297460636]
オープンドメインの質問応答では、回答を見つけるための関連するパスを検索する新たなパラダイムとして、高密度なパス検索が採用されている。
我々は,高密度経路探索を改善するために,RocketQAと呼ばれる最適化されたトレーニング手法を提案する。
RocketQAには3つの主要な技術的コントリビューション、すなわちクロスバッチなネガ、デノナイズドハードなネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネ
論文 参考訳(メタデータ) (2020-10-16T06:54:05Z) - Hindsight Experience Replay with Kronecker Product Approximate Curvature [5.441932327359051]
Hindsight Experience Replay (HER) は強化学習タスクを解決するアルゴリズムの1つである。
しかし、サンプル効率が低下し、収束が遅いため、HERは効率よく動作しない。
自然勾配はモデルパラメータをより収束させることによってこれらの課題を解決する。
提案手法は, 以上の課題を, より優れたサンプル効率, より高速な収束で解決し, 成功率を向上する。
論文 参考訳(メタデータ) (2020-10-09T20:25:14Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。