論文の概要: Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training
- arxiv url: http://arxiv.org/abs/2509.18631v2
- Date: Wed, 24 Sep 2025 23:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 12:02:33.929956
- Title: Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training
- Title(参考訳): 準リアル政策共同学習のための一般化可能なドメイン適応
- Authors: Shuo Cheng, Liqian Ma, Zhenyang Chen, Ajay Mandlekar, Caelan Garrett, Danfei Xu,
- Abstract要約: 一般化可能な操作ポリシーを学習するための統合型sim-and-real協調学習フレームワークを提案する。
シミュレーションデータを活用することで,実世界の成功率を最大30%向上できることを示す。
- 参考スコア(独自算出の注目度): 21.855770200309674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavior cloning has shown promise for robot manipulation, but real-world demonstrations are costly to acquire at scale. While simulated data offers a scalable alternative, particularly with advances in automated demonstration generation, transferring policies to the real world is hampered by various simulation and real domain gaps. In this work, we propose a unified sim-and-real co-training framework for learning generalizable manipulation policies that primarily leverages simulation and only requires a few real-world demonstrations. Central to our approach is learning a domain-invariant, task-relevant feature space. Our key insight is that aligning the joint distributions of observations and their corresponding actions across domains provides a richer signal than aligning observations (marginals) alone. We achieve this by embedding an Optimal Transport (OT)-inspired loss within the co-training framework, and extend this to an Unbalanced OT framework to handle the imbalance between abundant simulation data and limited real-world examples. We validate our method on challenging manipulation tasks, showing it can leverage abundant simulation data to achieve up to a 30% improvement in the real-world success rate and even generalize to scenarios seen only in simulation.
- Abstract(参考訳): 行動のクローン化はロボット操作の可能性を秘めているが、実世界のデモは大規模に取得するのにコストがかかる。
シミュレーションデータは、特に自動デモ生成の進歩によって、スケーラブルな代替手段を提供する一方で、さまざまなシミュレーションと実際のドメインギャップによって、現実の世界へのポリシーの転送が妨げられている。
本研究では,シミュレーションを主に活用し,実世界の実演のみを必要とする汎用的な操作ポリシーを学習するための,統一的なsim-and-realコトレーニングフレームワークを提案する。
私たちのアプローチの中心は、ドメイン不変でタスク関連の機能空間を学ぶことです。
我々の重要な洞察は、観測の合同分布と、それに対応する領域間での行動は、観測のみを整列するよりも、より豊かな信号を与えるということである。
我々は、コトレーニングフレームワークに最適なトランスポート(OT)にインスパイアされた損失を埋め込んで、これをアンバランスなOTフレームワークに拡張し、豊富なシミュレーションデータと限られた実世界の例の間の不均衡を処理する。
提案手法の有効性を検証し,シミュレーションデータを活用することで,実世界の成功率を最大30%向上し,シミュレーションでのみ見られるシナリオに一般化できることを示す。
関連論文リスト
- Empirical Analysis of Sim-and-Real Cotraining of Diffusion Policies for Planar Pushing from Pixels [18.858676073824515]
シミュレーションと実際のハードウェアの両方で生成された実演データとのコトレーニングが、ロボット工学における模倣学習をスケールするための有望なレシピとして登場した。
この研究は、シミュレーション設計、sim-and-realデータセット作成、ポリシートレーニングを知らせるために、sim-and-realコトレーニングの基本原則を解明することを目指している。
論文 参考訳(メタデータ) (2025-03-28T17:25:57Z) - An Real-Sim-Real (RSR) Loop Framework for Generalizable Robotic Policy Transfer with Differentiable Simulation [13.15220962477623]
本稿では,シミュレーションと実環境のギャップを解消する新しいリアルタイムループフレームワークを提案する。
我々の研究の重要な貢献は、多様で代表的な実世界のデータの収集を促進する情報的コスト関数の設計である。
我々のアプローチは多機能なMJXプラットフォーム上で実装されており、我々のフレームワークは幅広いロボットシステムと互換性がある。
論文 参考訳(メタデータ) (2025-03-13T07:27:05Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Marginalized Importance Sampling for Off-Environment Policy Evaluation [13.824507564510503]
強化学習法(Reinforcement Learning, RL)は、通常、サンプル非効率であり、実世界のロボットでRLポリティエの訓練と展開が困難である。
本稿では,エージェントポリシーを実環境にデプロイする前に,エージェントポリシーの現実的性能を評価するための新しいアプローチを提案する。
提案手法では,実世界のオフラインデータとともにシミュレータを組み込んで,任意のポリシーの性能評価を行う。
論文 参考訳(メタデータ) (2023-09-04T20:52:04Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。