論文の概要: ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors
- arxiv url: http://arxiv.org/abs/2603.15956v1
- Date: Mon, 16 Mar 2026 22:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.013464
- Title: ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors
- Title(参考訳): ExpertGen: 不完全な振る舞いから学ぶスケーラブルなSim-to-Realのエキスパートポリシー
- Authors: Zifan Xu, Ran Gong, Maria Vittoria Minniti, Ahmet Salih Gundogdu, Eric Rosen, Kausik Sivakumar, Riedana Yan, Zixing Wang, Di Deng, Peter Stone, Xiaohan Zhang, Karl Schmeckpeper,
- Abstract要約: ExpertGenは、スケーラブルなsim-to-real転送を可能にするために、シミュレーションで専門家のポリシー学習を自動化するフレームワークである。
工業組み立て作業では、ExpertGenは90.5%の全体的な成功率を達成し、長期操作タスクでは85%の総成功を達成する。
- 参考スコア(独自算出の注目度): 23.712657768774818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning generalizable and robust behavior cloning policies requires large volumes of high-quality robotics data. While human demonstrations (e.g., through teleoperation) serve as the standard source for expert behaviors, acquiring such data at scale in the real world is prohibitively expensive. This paper introduces ExpertGen, a framework that automates expert policy learning in simulation to enable scalable sim-to-real transfer. ExpertGen first initializes a behavior prior using a diffusion policy trained on imperfect demonstrations, which may be synthesized by large language models or provided by humans. Reinforcement learning is then used to steer this prior toward high task success by optimizing the diffusion model's initial noise while keep original policy frozen. By keeping the pretrained diffusion policy frozen, ExpertGen regularizes exploration to remain within safe, human-like behavior manifolds, while also enabling effective learning with only sparse rewards. Empirical evaluations on challenging manipulation benchmarks demonstrate that ExpertGen reliably produces high-quality expert policies with no reward engineering. On industrial assembly tasks, ExpertGen achieves a 90.5% overall success rate, while on long-horizon manipulation tasks it attains 85% overall success, outperforming all baseline methods. The resulting policies exhibit dexterous control and remain robust across diverse initial configurations and failure states. To validate sim-to-real transfer, the learned state-based expert policies are further distilled into visuomotor policies via DAgger and successfully deployed on real robotic hardware.
- Abstract(参考訳): 一般化可能で堅牢な行動クローニングポリシーの学習には、大量の高品質なロボティクスデータが必要である。
人間のデモンストレーション(例えば、遠隔操作)は専門家の行動の標準となるが、そのようなデータを現実世界で大規模に取得することは違法に高価である。
本稿では、スケーラブルなsim-to-real転送を実現するために、シミュレーションにおけるエキスパートポリシー学習を自動化するフレームワークであるExpertGenを紹介する。
ExpertGenはまず、不完全なデモンストレーションに基づいてトレーニングされた拡散ポリシーを使用して、大きな言語モデルによって合成されたり、人間が提供したりする前に振る舞いを初期化する。
強化学習は、拡散モデルの初期ノイズを最適化し、元のポリシーを凍結させながら、高いタスク成功に向けて、この前もってこれを操縦するために使用される。
事前訓練された拡散政策を凍結させることで、ExpertGenは、安全で人間的な行動多様体内に留まるよう探索を規則化するとともに、わずかな報酬だけで効果的な学習を可能にする。
試行錯誤ベンチマークに関する実証的な評価は、ExpertGenが報酬エンジニアリングのない高品質なエキスパートポリシーを確実に生成していることを示している。
産業組み立て作業では、ExpertGenは90.5%の全体的な成功率を達成し、長期操作タスクでは85%の全体的な成功を達成し、すべてのベースライン手法を上回っている。
結果として得られたポリシは厳格なコントロールを示し、さまざまな初期設定と障害状態に対して堅牢である。
sim-to-real転送を検証するために、学習された状態ベースのエキスパートポリシーは、DAggerを介してビジュモータポリシーに蒸留され、実際のロボットハードウェアにうまくデプロイされる。
関連論文リスト
- Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer [59.02729900344616]
GPUを加速したフォトリアリスティックなシミュレーションは、ロボット学習のためのスケーラブルなデータ生成パスを開いた。
視覚に基づくヒューマノイドロコ操作のための教師-学生-ブートストラップ学習フレームワークを開発した。
これは、純粋なRGB知覚を用いた多様な調音ロコ操作が可能な初めてのヒューマノイド・シム・トゥ・リアル政策である。
論文 参考訳(メタデータ) (2025-11-30T20:07:13Z) - SPACeR: Self-Play Anchoring with Centralized Reference Models [50.55045557371374]
Simエージェントポリシーは、現実的で、人間らしく、高速で、マルチエージェント設定でスケーラブルである。
大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を把握することができることを示している。
本研究では,事前訓練されたトークン化自己回帰運動モデルを利用したSPACeRを提案する。
論文 参考訳(メタデータ) (2025-10-20T19:53:02Z) - Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids [56.892520712892804]
本稿では,ヒューマノイドロボットを訓練して3つの巧妙な操作を行う,実用的なシミュレート・トゥ・リアルなRLレシピを提案する。
未確認のオブジェクトやロバストで適応的な政策行動に対して高い成功率を示す。
論文 参考訳(メタデータ) (2025-02-27T18:59:52Z) - RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning [53.8293458872774]
本稿では,RLDG(Reinforcement Learning Distilled Generalists)を提案する。
我々は、RL生成データで訓練されたジェネラリストポリシーが、人間の実演で訓練された者より一貫して優れていたことを実証する。
以上の結果から,タスク固有RLと一般政策蒸留を組み合わせることで,より有能で効率的なロボット操作システムの開発が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-13T04:57:55Z) - How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation [17.638831964639834]
行動クローニングポリシーは、人間のデモンストレーションから学ぶことで複雑なタスクを解決することに成功している。
本稿では,任意の環境下でのロボット性能について,より低バウンドなフレームワークを提案する。
実験では,シミュレーションとハードウェアの両方におけるビジュモータ操作のポリシーを評価する。
論文 参考訳(メタデータ) (2024-05-08T22:00:35Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。