論文の概要: Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning
- arxiv url: http://arxiv.org/abs/2406.04920v2
- Date: Mon, 19 Aug 2024 14:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 02:28:42.175933
- Title: Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning
- Title(参考訳): オンライン被覆経路計画のための深層強化学習エージェントの同時移動
- Authors: Arvi Jonnarth, Ola Johansson, Michael Felsberg,
- Abstract要約: 我々は、カバーパス計画(CPP)のための強化学習エージェント(RL)のSim-to-real転送の課題に取り組む。
シミュレーションされたセンサと障害物を利用しながら、現実のロボットやリアルタイムの側面を含む半仮想環境を通じて、シミュレートと現実のギャップを橋渡しする。
高い推測周波数は、一階マルコフのポリシーをシミュレーションから直接転送することを可能にし、高階のポリシーを微調整することで、sim-to-realのギャップをさらに減らすことができる。
- 参考スコア(独自算出の注目度): 15.792914346054502
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sim-to-real transfer presents a difficult challenge, where models trained in simulation are to be deployed in the real world. The distribution shift between the two settings leads to biased representations of the dynamics, and thus to suboptimal predictions in the real-world environment. In this work, we tackle the challenge of sim-to-real transfer of reinforcement learning (RL) agents for coverage path planning (CPP). In CPP, the task is for a robot to find a path that covers every point of a confined area. Specifically, we consider the case where the environment is unknown, and the agent needs to plan the path online while mapping the environment. We bridge the sim-to-real gap through a semi-virtual environment, including a real robot and real-time aspects, while utilizing a simulated sensor and obstacles to enable environment randomization and automated episode resetting. We investigate what level of fine-tuning is needed for adapting to a realistic setting, comparing to an agent trained solely in simulation. We find that a high inference frequency allows first-order Markovian policies to transfer directly from simulation, while higher-order policies can be fine-tuned to further reduce the sim-to-real gap. Moreover, they can operate at a lower frequency, thus reducing computational requirements. In both cases, our approaches transfer state-of-the-art results from simulation to the real domain, where direct learning would take in the order of weeks with manual interaction, that is, it would be completely infeasible.
- Abstract(参考訳): シミュレーションでトレーニングされたモデルが現実世界にデプロイされるという、シミュレーションから現実への移行は難しい課題である。
2つの設定間の分布シフトは、ダイナミクスの偏りのある表現をもたらし、現実の環境における最適以下の予測をもたらす。
本研究では,Regressing Learning (RL) エージェントのカバレッジパス計画 (CPP) におけるシミュレート・トゥ・リアル移行の課題に取り組む。
CPPでは、ロボットが制限された領域のすべての点をカバーする経路を見つけることが課題である。
具体的には、環境が不明な場合について考察し、エージェントは環境をマッピングしながら、オンラインで経路を計画する必要がある。
シミュレーションされたセンサと障害物を利用して環境ランダム化と自動エピソードリセットを実現する。
本研究は,シミュレーションのみで訓練されたエージェントと比較して,現実的な設定に適応するためにどのレベルの微調整が必要なのかを考察する。
高い推測周波数は、一階マルコフのポリシーをシミュレーションから直接転送することを可能にし、高階のポリシーを微調整することで、sim-to-realのギャップをさらに減らすことができる。
さらに、低い周波数で操作できるため、計算要求を低減できる。
どちらの場合も、我々のアプローチはシミュレーションによる最先端の結果を実際のドメインに転送します。
関連論文リスト
- Learning to navigate efficiently and precisely in real environments [14.52507964172957]
Embodied AIの文献は、HabitatやAI-Thorといったシミュレータで訓練されたエンドツーエンドエージェントに焦点を当てている。
本研究では,sim2realのギャップを最小限に抑えたシミュレーションにおけるエージェントのエンドツーエンドトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-01-25T17:50:05Z) - Zero-shot Sim2Real Adaptation Across Environments [45.44896435487879]
本稿では,実世界のシミュレートされたポリシーを模倣することを学ぶリバースアクショントランスフォーメーション(RAT)ポリシーを提案する。
RATは、新しい環境へのゼロショット適応を達成するために、Universal Policy Network上にデプロイできる。
論文 参考訳(メタデータ) (2023-02-08T11:59:07Z) - Provable Sim-to-real Transfer in Continuous Domain with Partial
Observations [39.18274543757048]
シン・トゥ・リアル・トランスファー(英語版)は、シミュレーション環境でRLエージェントを訓練し、実世界で展開する。
実環境における最適政策と競合するシミュレートされた環境から、人気のある頑健な対人訓練アルゴリズムが、ポリシーを学習できることを示す。
論文 参考訳(メタデータ) (2022-10-27T16:37:52Z) - Auto-Tuned Sim-to-Real Transfer [143.44593793640814]
シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。
ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。
実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:55Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z) - Sim-to-Real Transfer with Incremental Environment Complexity for
Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。
アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文 参考訳(メタデータ) (2020-04-30T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。