論文の概要: On Reward Shaping for Mobile Robot Navigation: A Reinforcement Learning
and SLAM Based Approach
- arxiv url: http://arxiv.org/abs/2002.04109v1
- Date: Mon, 10 Feb 2020 22:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 08:20:31.759491
- Title: On Reward Shaping for Mobile Robot Navigation: A Reinforcement Learning
and SLAM Based Approach
- Title(参考訳): 移動ロボットナビゲーションのための逆整形について:強化学習とSLAMに基づくアプローチ
- Authors: Nicol\`o Botteghi, Beril Sirmacek, Khaled A. A. Mustafa, Mannes Poel
and Stefano Stramigioli
- Abstract要約: 本研究では,未知環境下を走行する移動ロボットを対象とした,深層強化学習(DRL)に基づくマップレス経路計画アルゴリズムを提案する。
プランナーは、トレーニング環境の地図のオンライン知識に基づいて、報酬関数を用いて訓練される。
シミュレーション環境で訓練されたポリシーを直接、実際のロボットに転送し、成功させることができる。
- 参考スコア(独自算出の注目度): 7.488722678999039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a map-less path planning algorithm based on Deep Reinforcement
Learning (DRL) for mobile robots navigating in unknown environment that only
relies on 40-dimensional raw laser data and odometry information. The planner
is trained using a reward function shaped based on the online knowledge of the
map of the training environment, obtained using grid-based Rao-Blackwellized
particle filter, in an attempt to enhance the obstacle awareness of the agent.
The agent is trained in a complex simulated environment and evaluated in two
unseen ones. We show that the policy trained using the introduced reward
function not only outperforms standard reward functions in terms of convergence
speed, by a reduction of 36.9\% of the iteration steps, and reduction of the
collision samples, but it also drastically improves the behaviour of the agent
in unseen environments, respectively by 23\% in a simpler workspace and by 45\%
in a more clustered one. Furthermore, the policy trained in the simulation
environment can be directly and successfully transferred to the real robot. A
video of our experiments can be found at: https://youtu.be/UEV7W6e6ZqI
- Abstract(参考訳): 本稿では,40次元生レーザーデータとオドメトリ情報のみに依存する未知環境における移動ロボットの深層強化学習(drl)に基づくマップレス経路計画アルゴリズムを提案する。
このプランナーは、グリッドベースのrao黒化粒子フィルタを用いて得られた訓練環境の地図のオンライン知識に基づいて形成された報酬関数を用いて訓練され、エージェントの障害物認識を高める。
エージェントは複雑なシミュレーション環境で訓練され、2つの目に見えない環境で評価される。
導入した報酬関数を用いて訓練した政策は, 収束速度, 繰り返しステップの36.9倍の削減, 衝突サンプルの削減などにより, 標準報酬関数より優れるだけでなく, より単純な作業空間において, エージェントの挙動を23倍, よりクラスタ化された環境では45倍に大きく改善することを示した。
さらに、シミュレーション環境で訓練されたポリシーを実際のロボットに直接、かつうまく転送することができる。
実験のビデオは、https://youtu.be/UEV7W6e6ZqIで見ることができる。
関連論文リスト
- FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-25T03:15:17Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - Deep Reinforcement Learning with Dynamic Graphs for Adaptive Informative Path Planning [22.48658555542736]
ロボットデータ取得における重要な課題は、当初未知の環境を抜けて観測を収集する計画経路である。
そこで本研究では,未知の3D環境において,ロボット経路を適応的に計画し,対象をマップする深層強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:24:41Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - VAPOR: Legged Robot Navigation in Outdoor Vegetation Using Offline
Reinforcement Learning [53.13393315664145]
本研究では,非構造で密集した屋外環境における自律脚ロボットナビゲーションのための新しい手法であるVAPORを提案する。
本手法は,アクター・クリティカル・ネットワークと実際の屋外植生で収集された任意のデータを用いて,新しいRLポリシーを訓練する。
VAPORの動作は成功率を最大40%向上させ、平均電流消費量を最大2.9%削減し、正規化軌道長を最大11.2%削減する。
論文 参考訳(メタデータ) (2023-09-14T16:21:27Z) - XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision
Trees [55.9643422180256]
本稿では,ロボットの密集した動的環境における衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
論文 参考訳(メタデータ) (2021-04-22T01:33:10Z) - Accelerated Sim-to-Real Deep Reinforcement Learning: Learning Collision
Avoidance from Human Player [5.960346570280513]
本稿では,移動ロボットに使用するセンサレベルマップレス衝突回避アルゴリズムを提案する。
ロボットが人間体験データと自己探索データの両方から学習できるように,効率的な学習戦略を提案する。
ゲームフォーマットシミュレーションフレームワークは、人間のプレイヤーがモバイルロボットを目標まで遠隔操作できるように設計されている。
論文 参考訳(メタデータ) (2021-02-21T23:27:34Z) - An A* Curriculum Approach to Reinforcement Learning for RGBD Indoor
Robot Navigation [6.660458629649825]
最近リリースされたhabitatのようなフォトリアリスティックシミュレータは、知覚から直接制御アクションを出力するネットワークのトレーニングを可能にする。
本稿では,知覚の訓練とニューラルネットの制御を分離し,経路の複雑さを徐々に増すことにより,この問題を克服しようとする。
論文 参考訳(メタデータ) (2021-01-05T20:35:14Z) - Visual Navigation in Real-World Indoor Environments Using End-to-End
Deep Reinforcement Learning [2.7071541526963805]
そこで本研究では,実際のロボットにトレーニング済みポリシーを直接展開する手法を提案する。
このポリシーは、現実世界の環境から収集された画像に基づいて微調整される。
30回のナビゲーション実験では、このロボットは86.7%以上のケースで目標の0.3メートル付近に到達した。
論文 参考訳(メタデータ) (2020-10-21T11:22:30Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Reward Engineering for Object Pick and Place Training [3.4806267677524896]
OpenAIのGymが提供するPick and Place環境を使って報酬をエンジニアリングしています。
OpenAIベースラインと環境のデフォルト設定では、目標位置とロボットエンドエフェクタ間の距離を用いて報酬関数を算出する。
また、学習ポリシーに特定のユーザ希望のトラジェクトリを導入することも可能でした。
論文 参考訳(メタデータ) (2020-01-11T20:13:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。