論文の概要: Rapidly Adapting Policies to the Real World via Simulation-Guided Fine-Tuning
- arxiv url: http://arxiv.org/abs/2502.02705v1
- Date: Tue, 04 Feb 2025 20:40:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:24:05.315930
- Title: Rapidly Adapting Policies to the Real World via Simulation-Guided Fine-Tuning
- Title(参考訳): シミュレーション誘導ファインチューニングによる実世界への迅速なポリシー適用
- Authors: Patrick Yin, Tyler Westenbroek, Simran Bagaria, Kevin Huang, Ching-an Cheng, Andrey Kobolov, Abhishek Gupta,
- Abstract要約: 物理シミュレーターは、状態、行動、環境を広範囲にカバーした膨大なデータセットを生成することができる。
これらのポリシーを小さな現実世界のデータセットで微調整することは、ロボット学習をスケールするための魅力的な方法だ。
本稿では,シミュレーション誘導ファインチューニング(SGFT)フレームワークについて紹介する。
- 参考スコア(独自算出の注目度): 13.771418136861831
- License:
- Abstract: Robot learning requires a considerable amount of high-quality data to realize the promise of generalization. However, large data sets are costly to collect in the real world. Physics simulators can cheaply generate vast data sets with broad coverage over states, actions, and environments. However, physics engines are fundamentally misspecified approximations to reality. This makes direct zero-shot transfer from simulation to reality challenging, especially in tasks where precise and force-sensitive manipulation is necessary. Thus, fine-tuning these policies with small real-world data sets is an appealing pathway for scaling robot learning. However, current reinforcement learning fine-tuning frameworks leverage general, unstructured exploration strategies which are too inefficient to make real-world adaptation practical. This paper introduces the Simulation-Guided Fine-tuning (SGFT) framework, which demonstrates how to extract structural priors from physics simulators to substantially accelerate real-world adaptation. Specifically, our approach uses a value function learned in simulation to guide real-world exploration. We demonstrate this approach across five real-world dexterous manipulation tasks where zero-shot sim-to-real transfer fails. We further demonstrate our framework substantially outperforms baseline fine-tuning methods, requiring up to an order of magnitude fewer real-world samples and succeeding at difficult tasks where prior approaches fail entirely. Last but not least, we provide theoretical justification for this new paradigm which underpins how SGFT can rapidly learn high-performance policies in the face of large sim-to-real dynamics gaps. Project webpage: https://weirdlabuw.github.io/sgft/{weirdlabuw.github.io/sgft}
- Abstract(参考訳): ロボット学習は、一般化の約束を実現するために、かなりの量の高品質なデータを必要とする。
しかし、大規模なデータセットは現実世界で収集するのにコストがかかる。
物理シミュレーターは、状態、行動、環境を幅広くカバーした膨大なデータセットを安価に生成することができる。
しかし、物理エンジンは基本的に現実に対する不特定な近似である。
これにより、特に精密で力に敏感な操作が必要なタスクにおいて、シミュレーションから現実への直接のゼロショット転送が困難になる。
したがって、これらのポリシーを小さな実世界のデータセットで微調整することは、ロボット学習をスケールするための魅力的な経路である。
しかし、現在の強化学習の微調整フレームワークは、現実の適応を実践するには非効率な一般的な非構造探索戦略を利用する。
本稿では,シミュレーションガイドを用いたファインチューニング(SGFT)フレームワークについて紹介する。
具体的には,シミュレーションで学習した値関数を用いて,実世界の探査をガイドする。
ゼロショットsim-to-real転送が失敗する5つの実世界のデクスタラスな操作タスクに対して,このアプローチを実証する。
さらに、我々のフレームワークはベースラインの微調整方法を大幅に上回り、実際のサンプルを桁違いに減らし、事前のアプローチが完全に失敗する困難なタスクで成功することを実証する。
最後に、我々は、SGFTが大規模なsim-to-realのダイナミックスギャップに直面して、高速に高性能なポリシーを学習できるという新しいパラダイムを理論的に正当化する。
プロジェクトWebページ:https://weirdlabuw.github.io/sgft/{weirdlabuw.github.io/sgft}
関連論文リスト
- Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
私たちは世界モデルを学ぶための新しいフレームワークを紹介します。
スケーラブルで堅牢なフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Overcoming the Sim-to-Real Gap: Leveraging Simulation to Learn to Explore for Real-World RL [25.991354823569033]
多くの制度において、直接シム2リアルトランスファーは失敗する可能性があるが、シミュレータを使って一連のエフェクト探索ポリシーを学習できることが示される。
特に、低ランクのMDPの設定においては、これらの探索政策と単純で実践的なアプローチが結合していることが示される。
これは、シミュレーション転送が直接sim2real転送が失敗する環境で強化学習において証明可能な利益をもたらすという最初の証拠である。
論文 参考訳(メタデータ) (2024-10-26T19:12:27Z) - DrEureka: Language Model Guided Sim-To-Real Transfer [64.14314476811806]
シミュレーションで学んだ政策を現実世界に伝達することは、ロボットのスキルを大規模に獲得する上で有望な戦略である。
本稿では,Large Language Models (LLMs) を用いてシム・トゥ・リアル設計の自動化と高速化を行う。
本手法では,ヨガボールの上を歩行する四足歩行や四足歩行など,新しいロボットタスクを解くことができる。
論文 参考訳(メタデータ) (2024-06-04T04:53:05Z) - ASID: Active Exploration for System Identification in Robotic Manipulation [32.27299045059514]
本稿では,少数の実世界のデータを活用して,シミュレーションモデルを自律的に洗練し,正確な制御戦略を立案する学習システムを提案する。
本研究は, ロボット操作作業における調音, 質量, その他の物理パラメータの同定における, このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T16:35:38Z) - Practical Imitation Learning in the Real World via Task Consistency Loss [18.827979446629296]
本稿では,機能レベルと行動予測レベルの両方において,シミュレートと実際のアライメントを促進する自己監督的損失を提案する。
我々は、シミュレートとリアルで遠隔操作されたデモンストレーションを16.2時間しか使っていない10のシーンで80%の成功を達成した。
論文 参考訳(メタデータ) (2022-02-03T21:43:06Z) - Robot Learning from Randomized Simulations: A Review [59.992761565399185]
ディープラーニングがロボティクス研究のパラダイムシフトを引き起こし、大量のデータを必要とする方法が好まれている。
最先端のアプローチは、データ生成が高速かつ安価であるシミュレーションで学ぶ。
本稿では,ランダム化シミュレーションから学習する手法である「領域ランダム化」に焦点をあてる。
論文 参考訳(メタデータ) (2021-11-01T13:55:41Z) - Learning to Simulate on Sparse Trajectory Data [26.718807213824853]
本稿では,実世界のスパースデータから運転行動をシミュレートする学習問題に対処するための新しいフレームワーク imingail を提案する。
私たちの知る限りでは、行動学習問題に対するデータ疎結合問題に最初に取り組みます。
論文 参考訳(メタデータ) (2021-03-22T13:42:11Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z) - Sim-to-Real Transfer with Incremental Environment Complexity for
Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。
アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文 参考訳(メタデータ) (2020-04-30T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。