論文の概要: Generalization in Deep Reinforcement Learning for Robotic Navigation by
Reward Shaping
- arxiv url: http://arxiv.org/abs/2209.14271v2
- Date: Sat, 26 Aug 2023 14:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 01:33:29.778241
- Title: Generalization in Deep Reinforcement Learning for Robotic Navigation by
Reward Shaping
- Title(参考訳): 報酬シェーピングによるロボットナビゲーションのための深層強化学習の一般化
- Authors: Victor R. F. Miranda, Armando A. Neto, Gustavo M. Freitas, Leonardo A.
Mozelli
- Abstract要約: ローカルナビゲーション問題におけるDRLアルゴリズムの適用について検討する。
DRLに基づく衝突回避ポリシーにはいくつかの利点があるが、それらは局所的なミニマの影響を受けやすい。
本稿では,学習段階において得られた地図情報を取り入れた新たな報酬関数を提案する。
- 参考スコア(独自算出の注目度): 0.1588748438612071
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we study the application of DRL algorithms in the context of
local navigation problems, in which a robot moves towards a goal location in
unknown and cluttered workspaces equipped only with limited-range exteroceptive
sensors, such as LiDAR. Collision avoidance policies based on DRL present some
advantages, but they are quite susceptible to local minima, once their capacity
to learn suitable actions is limited to the sensor range. Since most robots
perform tasks in unstructured environments, it is of great interest to seek
generalized local navigation policies capable of avoiding local minima,
especially in untrained scenarios. To do so, we propose a novel reward function
that incorporates map information gained in the training stage, increasing the
agent's capacity to deliberate about the best course of action. Also, we use
the SAC algorithm for training our ANN, which shows to be more effective than
others in the state-of-the-art literature. A set of sim-to-sim and sim-to-real
experiments illustrate that our proposed reward combined with the SAC
outperforms the compared methods in terms of local minima and collision
avoidance.
- Abstract(参考訳): 本稿では,LDARのような限られた範囲の外部受動センサのみを備えた未知の作業空間において,ロボットが目標位置に向かって移動する局所ナビゲーション問題におけるDRLアルゴリズムの適用について検討する。
DRLに基づく衝突回避ポリシーにはいくつかの利点があるが、適切な行動を学ぶ能力がセンサー範囲に限られると、局所的なミニマの影響を受けやすい。
ほとんどのロボットは非構造環境でタスクを実行するため、特に訓練されていないシナリオにおいて、局所的なミニマを回避できる一般的なローカルナビゲーションポリシーを求めることが非常に興味深い。
そこで本研究では,訓練段階で得られた地図情報を組み込んだ新たな報酬機能を提案する。
また、ANNのトレーニングにはSACアルゴリズムを使用し、最先端の文献では他のものよりも効果的であることを示す。
sim-to-sim とsim-to-real の一連の実験により,提案した報酬と SAC は局所最小値と衝突回避率で比較した手法より優れていることを示した。
関連論文リスト
- When to Localize? A Risk-Constrained Reinforcement Learning Approach [13.853127103435012]
いくつかのシナリオでは、ロボットは観測に費用がかかるときに選択的にローカライズする必要がある。
RiskRLは制約付き強化学習フレームワークで、これらの制限を克服します。
論文 参考訳(メタデータ) (2024-11-05T03:54:00Z) - Mission-driven Exploration for Accelerated Deep Reinforcement Learning
with Temporal Logic Task Specifications [11.812602599752294]
未知の構造を持つ環境で動作している未知のダイナミクスを持つロボットについて考察する。
我々の目標は、オートマトン符号化されたタスクを満足する確率を最大化する制御ポリシーを合成することである。
そこで本研究では,制御ポリシーを類似手法と比較して顕著に高速に学習できるDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:58Z) - CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。
CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。
我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - DDPEN: Trajectory Optimisation With Sub Goal Generation Model [70.36888514074022]
本稿では,エスケープネットワークを用いた微分動的プログラミング(DDPEN)を提案する。
本稿では,環境の入力マップとして,所望の位置とともにコストマップの形で利用する深層モデルを提案する。
このモデルは、目標に導く可能性のある将来の方向を生成し、リアルタイムに実行可能なローカルなミニマを避ける。
論文 参考訳(メタデータ) (2023-01-18T11:02:06Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Rule-Based Reinforcement Learning for Efficient Robot Navigation with
Space Reduction [8.279526727422288]
本稿では,強化学習(RL)技術を用いた効率的なナビゲーションに焦点を当てた。
軌道を縮小するために減速ルールを採用し、冗長な探査空間を効果的に削減します。
ヘックスグリッド環境における実際のロボットナビゲーション問題に対する実験は、RuRLが航法性能を向上させることを実証している。
論文 参考訳(メタデータ) (2021-04-15T07:40:27Z) - On Reward Shaping for Mobile Robot Navigation: A Reinforcement Learning
and SLAM Based Approach [7.488722678999039]
本研究では,未知環境下を走行する移動ロボットを対象とした,深層強化学習(DRL)に基づくマップレス経路計画アルゴリズムを提案する。
プランナーは、トレーニング環境の地図のオンライン知識に基づいて、報酬関数を用いて訓練される。
シミュレーション環境で訓練されたポリシーを直接、実際のロボットに転送し、成功させることができる。
論文 参考訳(メタデータ) (2020-02-10T22:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。