論文の概要: RoboDream: Compositional World Models for Scalable Robot Data Synthesis
- arxiv url: http://arxiv.org/abs/2606.02577v1
- Date: Mon, 01 Jun 2026 17:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.568859
- Title: RoboDream: Compositional World Models for Scalable Robot Data Synthesis
- Title(参考訳): RoboDream:スケーラブルなロボットデータ合成のための構成世界モデル
- Authors: Junjie Ye, Rong Xue, Basile Van Hoorick, Runhao Li, Harshitha Rajaprakash, Pavel Tokmakov, Muhammad Zubair Irshad, Vitor Guizilini, Yue Wang,
- Abstract要約: ロボット学習のスケールには大規模で多様なデモが必要だが、遠隔操作による実世界のデータ収集は極めて高価で時間を要する。
本稿では、新しいオブジェクトでデモを合成することで、スケーラブルなデータ生成を実現する、一般化可能なエンボディメント中心の世界モデルを提案する。
実世界の実験で、生成したデータは、ダウンストリームポリシーのパフォーマンスを一貫して改善し、多様な操作タスクにおける実世界のデータ要求を大幅に低減することを示した。
- 参考スコア(独自算出の注目度): 31.864551794584667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling robot learning requires large-scale, diverse demonstrations, yet real-world data collection via teleoperation remains prohibitively expensive and time-consuming. While video diffusion models offer a promising avenue for data scaling, existing generative approaches are often limited to superficial visual augmentation, or suffer from embodiment hallucinations that yield physically infeasible motions. We present a generalizable embodiment-centric world model that achieves scalable data generation by synthesizing photorealistic demonstrations with novel objects, in novel scenes, and from novel viewpoints. Our approach anchors generation to rendered robot motion while conditioning on explicit scene and object priors, effectively decoupling trajectory execution from environment synthesis. This formulation has the potential to unlock two powerful data scaling capabilities: (1) retrieval and rebirth, which repurposes existing trajectories into entirely new contexts without new motion data; and (2) prop-free teleoperation, where operators manipulate empty air and the model hallucinates the target objects and scene afterwards, eliminating reset time. We demonstrate with real-world experiments that our generated data consistently improves downstream policy performance and significantly reduces real-world data requirements across diverse manipulation tasks.
- Abstract(参考訳): ロボット学習のスケールには大規模で多様なデモが必要だが、遠隔操作による実世界のデータ収集は極めて高価で時間を要する。
ビデオ拡散モデルは、データスケーリングのための有望な道を提供するが、既存の生成的アプローチは、表面的な視覚増強に制限される場合や、物理的に不可能な動きをもたらすエンボディメント幻覚に悩まされる場合が多い。
本稿では,新しいオブジェクト,新しいシーン,新しい視点で,フォトリアリスティックなデモを合成することで,スケーラブルなデータ生成を実現する,一般化可能なエンボディメント中心の世界モデルを提案する。
本手法は, 環境合成から軌道実行を効果的に分離し, 明示的なシーンや物体を条件付けしながら, ロボットの動きを予測するための生成をアンカーする。
この定式化は、(1)既存の軌跡を新しい動きデータなしで完全に新しい文脈に再利用する検索と再生、(2)空の空気を操作するプロップフリー遠隔操作、そしてモデルがその後対象の物体とシーンを幻覚させ、リセット時間をなくすという2つの強力なデータスケーリング機能を解き放つ可能性がある。
実世界の実験で、生成したデータは、ダウンストリームポリシーのパフォーマンスを一貫して改善し、多様な操作タスクにおける実世界のデータ要求を大幅に低減することを示した。
関連論文リスト
- Exploring the Role of Synthetic Data Augmentation in Controllable Human-Centric Video Generation [9.875136212706165]
コントロール可能な人間のビデオ生成は、明確に誘導された動きと外観を持つ人間のリアルなビデオを作成することを目的としている。
合成データはスケーラブルで制御可能な代替手段を提供する。
本研究では,ヒト中心のビデオ合成における合成データの役割を包括的に調査する。
論文 参考訳(メタデータ) (2026-04-23T05:10:15Z) - SoftMimicGen: A Data Generation System for Scalable Robot Learning in Deformable Object Manipulation [45.71119158785489]
我々は、変形可能なオブジェクト操作タスクのための自動データ生成パイプラインであるSoftMimicGenを紹介する。
本稿では,多種多様な変形可能な物体を含む高忠実度シミュレーション環境について紹介する。
我々はSoftMimicGenを適用し、タスクスイート全体にわたってデータセットを生成し、データからハイパフォーマンスなポリシーをトレーニングし、データ生成システムを体系的に分析する。
論文 参考訳(メタデータ) (2026-03-26T17:58:40Z) - DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos [110.98100817695307]
私たちはDreamDojoを紹介します。DreamDojoは、多種多様なインタラクションと、エゴセントリックな人間ビデオの44万時間から厳密なコントロールを学ぶ基礎的な世界モデルです。
本研究は, 遠隔操作, 政策評価, モデルベース計画など, 生成的世界モデルに基づくいくつかの重要な応用を可能にする。
論文 参考訳(メタデータ) (2026-02-06T18:49:43Z) - Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。
実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。
次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文 参考訳(メタデータ) (2026-01-24T07:43:57Z) - AnchorDream: Repurposing Video Diffusion for Embodiment-Aware Robot Data Synthesis [33.90053396451562]
AnchorDreamは、ロボットデータ合成のための事前学習されたビデオ拡散モデルを再利用した、エンボディメントを意識した世界モデルである。
本手法は,環境モデリングを必要とせず,大規模で多様な高品質なデータセットにスケールする。
実験の結果、生成されたデータは下流の政策学習において一貫した改善をもたらし、シミュレータのベンチマークでは36.4%、現実世界の研究ではほぼ2倍の性能を示した。
論文 参考訳(メタデータ) (2025-12-12T18:59:45Z) - Synthetic Dataset Generation for Autonomous Mobile Robots Using 3D Gaussian Splatting for Vision Training [0.708987965338602]
本論文では,Unreal Engineにおける注釈付き合成データの自動生成手法を提案する。
合成データセットが実世界のデータセットに匹敵する性能を達成できることを実証する。
これは、ロボットサッカーにおけるオブジェクト検出アルゴリズムのトレーニングのための合成データの最初の応用である。
論文 参考訳(メタデータ) (2025-06-05T14:37:40Z) - DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Future Urban Scenes Generation Through Vehicles Synthesis [90.1731992199415]
本研究では,都市景観の視覚的外観を予測するためのディープラーニングパイプラインを提案する。
ループには解釈可能な情報が含まれ、各アクターは独立してモデル化される。
従来のCityFlowのシーン生成手法に比べて,このアプローチが優れていることを示す。
論文 参考訳(メタデータ) (2020-07-01T08:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。