論文の概要: Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning
- arxiv url: http://arxiv.org/abs/2406.04920v3
- Date: Sat, 23 Aug 2025 14:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:44.985218
- Title: Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning
- Title(参考訳): オンライン被覆経路計画のための深層強化学習エージェントの同時移動
- Authors: Arvi Jonnarth, Ola Johansson, Jie Zhao, Michael Felsberg,
- Abstract要約: 被覆経路計画は、制限された地域の自由空間全体をカバーする経路を見つける問題である。
本稿では,この課題に対する連続空間強化学習の有効性について検討する。
提案手法は従来のRLに基づく手法と高度に専門化された手法の両方の性能を上回ることを示す。
- 参考スコア(独自算出の注目度): 22.077058792635313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coverage path planning (CPP) is the problem of finding a path that covers the entire free space of a confined area, with applications ranging from robotic lawn mowing to search-and-rescue. While for known environments, offline methods can find provably complete paths, and in some cases optimal solutions, unknown environments need to be planned online during mapping. We investigate the suitability of continuous-space reinforcement learning (RL) for this challenging problem, and propose a computationally feasible egocentric map representation based on frontiers, as well as a novel reward term based on total variation to promote complete coverage. Compared to existing classical methods, this approach allows for a flexible path space, and enables the agent to adapt to specific environment characteristics. Meanwhile, the deployment of RL models on real robot systems is difficult. Training from scratch may be infeasible due to slow convergence times, while transferring from simulation to reality, i.e. sim-to-real transfer, is a key challenge in itself. We bridge the sim-to-real gap through a semi-virtual environment, including a real robot and real-time aspects, while utilizing a simulated sensor and obstacles to enable environment randomization and automated episode resetting. We investigate what level of fine-tuning is needed for adapting to a realistic setting. Through extensive experiments, we show that our approach surpasses the performance of both previous RL-based approaches and highly specialized methods across multiple CPP variations in simulation. Meanwhile, our method successfully transfers to a real robot. Our code implementation can be found online.
- Abstract(参考訳): カバー・パス・プランニング(CPP)は、ロボット芝刈りから捜索・救助まで、限られた地域の自由空間全体をカバーする経路を見つける問題である。
既知の環境では、オフラインメソッドは証明可能な完全なパスを見つけることができ、場合によっては最適なソリューションでは、マッピング中に未知の環境をオンラインに計画する必要がある。
本稿では、この課題に対する連続空間強化学習(RL)の適用性について検討し、フロンティアに基づく計算可能なエゴセントリックマップ表現と、全変動に基づく新たな報酬項を提案する。
従来の手法と比較して、このアプローチは柔軟な経路空間を可能にし、エージェントが特定の環境特性に適応できるようにする。
一方、実際のロボットシステムへのRLモデルの展開は困難である。
スクラッチからのトレーニングは、収束時間が遅いために実現不可能であり、シミュレーションから現実へ、すなわちシミュレートから現実への移行は、それ自体において重要な課題である。
シミュレーションされたセンサと障害物を利用して環境ランダム化と自動エピソードリセットを実現する。
現実的な環境に適応するためには,どのレベルの微調整が必要かを検討する。
実験により,提案手法は従来のRLに基づく手法と,シミュレーションにおける複数のCPP変動にまたがる高度に特殊な手法の両方の性能を上回ることを示した。
一方,本手法は実際のロボットへの移動に成功している。
私たちのコード実装はオンラインで見つけることができます。
関連論文リスト
- Neural Fidelity Calibration for Informative Sim-to-Real Adaptation [10.117298045153564]
深い強化学習は、アジャイルの移動とナビゲーションのスキルをシミュレータから現実世界にシームレスに移行することができる。
しかし、ドメインのランダム化や敵対的手法とシム・トゥ・リアルのギャップを埋めることは、しばしば政策の堅牢性を保証するために専門家の物理学知識を必要とする。
本研究では, 条件付きスコアベース拡散モデルを用いて, ロボットの動作中における物理係数と残留忠実度領域のキャリブレーションを行う新しいフレームワークであるNeural Fidelity(NFC)を提案する。
論文 参考訳(メタデータ) (2025-04-11T15:12:12Z) - Learning to navigate efficiently and precisely in real environments [14.52507964172957]
Embodied AIの文献は、HabitatやAI-Thorといったシミュレータで訓練されたエンドツーエンドエージェントに焦点を当てている。
本研究では,sim2realのギャップを最小限に抑えたシミュレーションにおけるエージェントのエンドツーエンドトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-01-25T17:50:05Z) - Zero-shot Sim2Real Adaptation Across Environments [45.44896435487879]
本稿では,実世界のシミュレートされたポリシーを模倣することを学ぶリバースアクショントランスフォーメーション(RAT)ポリシーを提案する。
RATは、新しい環境へのゼロショット適応を達成するために、Universal Policy Network上にデプロイできる。
論文 参考訳(メタデータ) (2023-02-08T11:59:07Z) - Provable Sim-to-real Transfer in Continuous Domain with Partial
Observations [39.18274543757048]
シン・トゥ・リアル・トランスファー(英語版)は、シミュレーション環境でRLエージェントを訓練し、実世界で展開する。
実環境における最適政策と競合するシミュレートされた環境から、人気のある頑健な対人訓練アルゴリズムが、ポリシーを学習できることを示す。
論文 参考訳(メタデータ) (2022-10-27T16:37:52Z) - Auto-Tuned Sim-to-Real Transfer [143.44593793640814]
シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。
ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。
実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:55Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z) - Sim-to-Real Transfer with Incremental Environment Complexity for
Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。
アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文 参考訳(メタデータ) (2020-04-30T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。