論文の概要: AnchorDream: Repurposing Video Diffusion for Embodiment-Aware Robot Data Synthesis
- arxiv url: http://arxiv.org/abs/2512.11797v1
- Date: Fri, 12 Dec 2025 18:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.884134
- Title: AnchorDream: Repurposing Video Diffusion for Embodiment-Aware Robot Data Synthesis
- Title(参考訳): AnchorDream: 身体を意識したロボットデータ合成のためのビデオ拡散再生
- Authors: Junjie Ye, Rong Xue, Basile Van Hoorick, Pavel Tokmakov, Muhammad Zubair Irshad, Yue Wang, Vitor Guizilini,
- Abstract要約: AnchorDreamは、ロボットデータ合成のための事前学習されたビデオ拡散モデルを再利用した、エンボディメントを意識した世界モデルである。
本手法は,環境モデリングを必要とせず,大規模で多様な高品質なデータセットにスケールする。
実験の結果、生成されたデータは下流の政策学習において一貫した改善をもたらし、シミュレータのベンチマークでは36.4%、現実世界の研究ではほぼ2倍の性能を示した。
- 参考スコア(独自算出の注目度): 33.90053396451562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The collection of large-scale and diverse robot demonstrations remains a major bottleneck for imitation learning, as real-world data acquisition is costly and simulators offer limited diversity and fidelity with pronounced sim-to-real gaps. While generative models present an attractive solution, existing methods often alter only visual appearances without creating new behaviors, or suffer from embodiment inconsistencies that yield implausible motions. To address these limitations, we introduce AnchorDream, an embodiment-aware world model that repurposes pretrained video diffusion models for robot data synthesis. AnchorDream conditions the diffusion process on robot motion renderings, anchoring the embodiment to prevent hallucination while synthesizing objects and environments consistent with the robot's kinematics. Starting from only a handful of human teleoperation demonstrations, our method scales them into large, diverse, high-quality datasets without requiring explicit environment modeling. Experiments show that the generated data leads to consistent improvements in downstream policy learning, with relative gains of 36.4% in simulator benchmarks and nearly double performance in real-world studies. These results suggest that grounding generative world models in robot motion provides a practical path toward scaling imitation learning.
- Abstract(参考訳): 大規模で多様なロボットデモの収集は、実世界のデータ取得がコストがかかり、シミュレーターは、シモン・トゥ・リアルのギャップを強調して、限られた多様性と忠実さを提供するため、模倣学習の大きなボトルネックとなっている。
生成モデルには魅力的な解決策があるが、既存の手法では、新しい振る舞いを作らずに視覚的な外観だけを変えることや、不明瞭な動きをもたらすエンボディメントの不整合に悩まされることがしばしばある。
これらの制約に対処するために、ロボットデータ合成のための事前学習ビデオ拡散モデルを再活用する、エボディメント対応の世界モデルであるAnchorDreamを紹介した。
AnchorDreamは、ロボットの動きレンダリングの拡散過程を条件とし、ロボットの運動学と整合した物体や環境を合成しながら、幻覚を防ぐために体調を固定する。
人間の遠隔操作のデモから始めて、我々の方法は、明示的な環境モデリングを必要とせずに、それらを大規模で多様な高品質なデータセットにスケールする。
実験の結果、生成されたデータは下流の政策学習において一貫した改善をもたらし、シミュレータのベンチマークでは36.4%、現実世界の研究ではほぼ2倍の性能を示した。
これらの結果から,ロボット動作における生成的世界モデルの構築は,模倣学習のスケールアップに向けた実践的な道筋となることが示唆された。
関連論文リスト
- EMMA: Generalizing Real-World Robot Manipulation via Generative Visual Transfer [35.27100635173712]
視覚言語アクション(VLA)モデルは、堅牢な一般化を達成するために、多種多様なトレーニングデータに依存している。
本稿では,VLAポリシー拡張フレームワークであるEmbodied Manipulation Media Adaptation (EMMA)を提案する。
DreamTransferは、3D構造や幾何学的妥当性を損なうことなく、ロボットビデオのテキスト制御による視覚的編集、前景、背景、照明条件の変換を可能にする。
AdaMixは、動的にトレーニングバッチを再重み付けして、知覚的あるいは運動学的に困難なサンプルに最適化する、ハードサンプル対応のトレーニング戦略である。
論文 参考訳(メタデータ) (2025-09-26T14:34:44Z) - GenFlowRL: Shaping Rewards with Generative Object-Centric Flow in Visual Reinforcement Learning [79.68241687396603]
本稿では,多種多様な組織間データセットから学習した生成フローから,形状の報酬を導出するGenFlowRLを提案する。
GenFlowRLは、生成したオブジェクト中心の流れから抽出した操作機能を効果的に活用できることを、シミュレーションと実世界のクロスエボディメント評価の両方で実証した。
論文 参考訳(メタデータ) (2025-08-14T20:19:20Z) - RoboPearls: Editable Video Simulation for Robot Manipulation [81.18434338506621]
RoboPearlsは、ロボット操作のための編集可能なビデオシミュレーションフレームワークである。
3D Gaussian Splatting (3DGS)に基づいて構築されたRoboPearlsは、フォトリアリスティックでビュー一貫性のあるシミュレーションの構築を可能にする。
我々は、RLBench、COLOSSEUM、Ego4D、Open X-Embodiment、現実世界のロボットなど、複数のデータセットやシーンで広範な実験を行う。
論文 参考訳(メタデータ) (2025-06-28T05:03:31Z) - DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model [72.66465487508556]
DiffGenは、微分可能な物理シミュレーション、微分可能なレンダリング、ビジョン言語モデルを統合する新しいフレームワークである。
言語命令の埋め込みとシミュレートされた観察の埋め込みとの距離を最小化することにより、現実的なロボットデモを生成することができる。
実験によると、DiffGenを使えば、人間の努力やトレーニング時間を最小限に抑えて、ロボットデータを効率よく、効果的に生成できる。
論文 参考訳(メタデータ) (2024-05-12T15:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。