Fugu-MT 論文翻訳(概要): Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning

論文の概要: Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning

arxiv url: http://arxiv.org/abs/2406.04920v2
Date: Mon, 19 Aug 2024 14:45:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 02:28:42.175933
Title: Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning
Title（参考訳）: オンライン被覆経路計画のための深層強化学習エージェントの同時移動
Authors: Arvi Jonnarth, Ola Johansson, Michael Felsberg,
Abstract要約: 我々は、カバーパス計画(CPP)のための強化学習エージェント(RL)のSim-to-real転送の課題に取り組む。シミュレーションされたセンサと障害物を利用しながら、現実のロボットやリアルタイムの側面を含む半仮想環境を通じて、シミュレートと現実のギャップを橋渡しする。高い推測周波数は、一階マルコフのポリシーをシミュレーションから直接転送することを可能にし、高階のポリシーを微調整することで、sim-to-realのギャップをさらに減らすことができる。
参考スコア（独自算出の注目度）: 15.792914346054502
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Sim-to-real transfer presents a difficult challenge, where models trained in simulation are to be deployed in the real world. The distribution shift between the two settings leads to biased representations of the dynamics, and thus to suboptimal predictions in the real-world environment. In this work, we tackle the challenge of sim-to-real transfer of reinforcement learning (RL) agents for coverage path planning (CPP). In CPP, the task is for a robot to find a path that covers every point of a confined area. Specifically, we consider the case where the environment is unknown, and the agent needs to plan the path online while mapping the environment. We bridge the sim-to-real gap through a semi-virtual environment, including a real robot and real-time aspects, while utilizing a simulated sensor and obstacles to enable environment randomization and automated episode resetting. We investigate what level of fine-tuning is needed for adapting to a realistic setting, comparing to an agent trained solely in simulation. We find that a high inference frequency allows first-order Markovian policies to transfer directly from simulation, while higher-order policies can be fine-tuned to further reduce the sim-to-real gap. Moreover, they can operate at a lower frequency, thus reducing computational requirements. In both cases, our approaches transfer state-of-the-art results from simulation to the real domain, where direct learning would take in the order of weeks with manual interaction, that is, it would be completely infeasible.
Abstract（参考訳）: シミュレーションでトレーニングされたモデルが現実世界にデプロイされるという、シミュレーションから現実への移行は難しい課題である。 2つの設定間の分布シフトは、ダイナミクスの偏りのある表現をもたらし、現実の環境における最適以下の予測をもたらす。本研究では,Regressing Learning (RL) エージェントのカバレッジパス計画 (CPP) におけるシミュレート・トゥ・リアル移行の課題に取り組む。 CPPでは、ロボットが制限された領域のすべての点をカバーする経路を見つけることが課題である。具体的には、環境が不明な場合について考察し、エージェントは環境をマッピングしながら、オンラインで経路を計画する必要がある。シミュレーションされたセンサと障害物を利用して環境ランダム化と自動エピソードリセットを実現する。本研究は,シミュレーションのみで訓練されたエージェントと比較して,現実的な設定に適応するためにどのレベルの微調整が必要なのかを考察する。高い推測周波数は、一階マルコフのポリシーをシミュレーションから直接転送することを可能にし、高階のポリシーを微調整することで、sim-to-realのギャップをさらに減らすことができる。さらに、低い周波数で操作できるため、計算要求を低減できる。どちらの場合も、我々のアプローチはシミュレーションによる最先端の結果を実際のドメインに転送します。

関連論文リスト

SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [94.33978856270268]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文参考訳（メタデータ） (2025-05-22T16:05:02Z)
A General Infrastructure and Workflow for Quadrotor Deep Reinforcement Learning and Reality Deployment [48.90852123901697]
本稿では, エンドツーエンドの深層強化学習(DRL)ポリシーを四元数へシームレスに移行できるプラットフォームを提案する。本プラットフォームは, ホバリング, 動的障害物回避, 軌道追尾, 気球打上げ, 未知環境における計画など, 多様な環境を提供する。
論文参考訳（メタデータ） (2025-04-21T14:25:23Z)
Neural Fidelity Calibration for Informative Sim-to-Real Adaptation [10.117298045153564]
深い強化学習は、アジャイルの移動とナビゲーションのスキルをシミュレータから現実世界にシームレスに移行することができる。しかし、ドメインのランダム化や敵対的手法とシム・トゥ・リアルのギャップを埋めることは、しばしば政策の堅牢性を保証するために専門家の物理学知識を必要とする。本研究では, 条件付きスコアベース拡散モデルを用いて, ロボットの動作中における物理係数と残留忠実度領域のキャリブレーションを行う新しいフレームワークであるNeural Fidelity(NFC)を提案する。
論文参考訳（メタデータ） (2025-04-11T15:12:12Z)
ReGentS: Real-World Safety-Critical Driving Scenario Generation Made Stable [88.08120417169971]
機械学習に基づく自律運転システムは、現実世界のデータでは稀な安全クリティカルなシナリオで課題に直面していることが多い。この研究は、軌道最適化によって複雑な現実世界の通常のシナリオを変更することによって、安全クリティカルな運転シナリオを生成することを検討する。提案手法は、頑健なプランナーの訓練には役に立たない非現実的な発散軌道と避けられない衝突シナリオに対処する。
論文参考訳（メタデータ） (2024-09-12T08:26:33Z)
Learning to navigate efficiently and precisely in real environments [14.52507964172957]
Embodied AIの文献は、HabitatやAI-Thorといったシミュレータで訓練されたエンドツーエンドエージェントに焦点を当てている。本研究では,sim2realのギャップを最小限に抑えたシミュレーションにおけるエージェントのエンドツーエンドトレーニングについて検討する。
論文参考訳（メタデータ） (2024-01-25T17:50:05Z)
AI planning in the imagination: High-level planning on learned abstract search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文参考訳（メタデータ） (2023-08-16T22:47:16Z)
Learning Coverage Paths in Unknown Environments with Deep Reinforcement Learning [17.69984142788365]
被覆経路計画 (CPP) は、制限された領域の自由空間全体をカバーする経路を見つける問題である。この課題に対する強化学習の適性について検討する。本稿では,フロンティアに基づく計算可能なエゴセントリックマップ表現と,全変動に基づく新たな報酬項を提案する。
論文参考訳（メタデータ） (2023-06-29T14:32:06Z)
Zero-shot Sim2Real Adaptation Across Environments [45.44896435487879]
本稿では,実世界のシミュレートされたポリシーを模倣することを学ぶリバースアクショントランスフォーメーション(RAT)ポリシーを提案する。 RATは、新しい環境へのゼロショット適応を達成するために、Universal Policy Network上にデプロイできる。
論文参考訳（メタデータ） (2023-02-08T11:59:07Z)
Discrete Control in Real-World Driving Environments using Deep Reinforcement Learning [2.467408627377504]
本研究では,現実の環境をゲーム環境に移行させる,現実の運転環境におけるフレームワーク(知覚,計画,制御)を紹介する。実環境における離散制御を学習し,実行するために,既存の強化学習(RL)アルゴリズムを多エージェント設定で提案する。
論文参考訳（メタデータ） (2022-11-29T04:24:03Z)
Provable Sim-to-real Transfer in Continuous Domain with Partial Observations [39.18274543757048]
シン・トゥ・リアル・トランスファー(英語版)は、シミュレーション環境でRLエージェントを訓練し、実世界で展開する。実環境における最適政策と競合するシミュレートされた環境から、人気のある頑健な対人訓練アルゴリズムが、ポリシーを学習できることを示す。
論文参考訳（メタデータ） (2022-10-27T16:37:52Z)
Auto-Tuned Sim-to-Real Transfer [143.44593793640814]
シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
論文参考訳（メタデータ） (2021-04-15T17:59:55Z)
TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。 TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文参考訳（メタデータ） (2021-01-17T00:29:30Z)
Reactive Long Horizon Task Execution via Visual Skill and Precondition Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文参考訳（メタデータ） (2020-11-17T15:24:01Z)
Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。 RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文参考訳（メタデータ） (2020-07-27T17:46:59Z)
RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。 RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文参考訳（メタデータ） (2020-06-16T08:58:07Z)
Sim-to-Real Transfer with Incremental Environment Complexity for Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文参考訳（メタデータ） (2020-04-30T10:47:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。