論文の概要: DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control
- arxiv url: http://arxiv.org/abs/2603.10448v1
- Date: Wed, 11 Mar 2026 06:03:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.666288
- Title: DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control
- Title(参考訳): DiT4DiT:汎用ロボット制御のためのビデオダイナミクスとアクションを併用したモデリング
- Authors: Teli Ma, Jia Zheng, Zifan Wang, Chuili Jiang, Andy Cui, Junwei Liang, Shuo Yang,
- Abstract要約: 本稿では,ビデオ拡散変換器とアクション拡散変換器を結合したエンドツーエンドのビデオ・アクション・モデルであるDiT4DiTを紹介する。
DiT4DiTは、再構成後のフレームに頼る代わりに、ビデオ生成プロセスから中間的なデノイング機能を抽出する。
これは最先端の結果を達成し、LIBEROでは98.6%、RoboCasa GR1では50.8%という平均的な成功率に達した。
- 参考スコア(独自算出の注目度): 16.562259973551786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as a promising paradigm for robot learning, but their representations are still largely inherited from static image-text pretraining, leaving physical dynamics to be learned from comparatively limited action data. Generative video models, by contrast, encode rich spatiotemporal structure and implicit physics, making them a compelling foundation for robotic manipulation. But their potentials are not fully explored in the literature. To bridge the gap, we introduce DiT4DiT, an end-to-end Video-Action Model that couples a video Diffusion Transformer with an action Diffusion Transformer in a unified cascaded framework. Instead of relying on reconstructed future frames, DiT4DiT extracts intermediate denoising features from the video generation process and uses them as temporally grounded conditions for action prediction. We further propose a dual flow-matching objective with decoupled timesteps and noise scales for video prediction, hidden-state extraction, and action inference, enabling coherent joint training of both modules. Across simulation and real-world benchmarks, DiT4DiT achieves state-of-the-art results, reaching average success rates of 98.6% on LIBERO and 50.8% on RoboCasa GR1 while using substantially less training data. On the Unitree G1 robot, it also delivers superior real-world performance and strong zero-shot generalization. Importantly, DiT4DiT improves sample efficiency by over 10x and speeds up convergence by up to 7x, demonstrating that video generation can serve as an effective scaling proxy for robot policy learning. We release code and models at https://dit4dit.github.io/.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルがロボット学習の有望なパラダイムとして登場したが、その表現は静的な画像テキスト事前学習から受け継がれており、物理力学は比較的限られた行動データから学習される。
対照的に、生成ビデオモデルは、豊富な時空間構造と暗黙の物理を符号化し、ロボット操作の魅力的な基盤となっている。
しかし、その潜在能力は文献で完全には研究されていない。
このギャップを埋めるために、我々は、ビデオ拡散変換器とアクション拡散変換器を一体化したフレームワークで結合する、エンドツーエンドのビデオ・アクション・モデルであるDiT4DiTを紹介する。
再構成された将来のフレームに頼る代わりに、DiT4DiTはビデオ生成プロセスから中間的聴覚特徴を抽出し、動作予測のための時間的基底条件として使用する。
さらに、ビデオ予測、隠れ状態抽出、行動推論のための分離された時間ステップとノイズスケールを備えた二重流れマッチング目標を提案し、両モジュールのコヒーレントな共同訓練を可能にした。
DiT4DiTはシミュレーションと実世界のベンチマークで最先端の結果を達成し、LIBEROでは98.6%、RoboCasa GR1では50.8%で平均的な成功率を達成した。
Unitree G1ロボットでは、優れた現実世界のパフォーマンスと強力なゼロショットの一般化も提供する。
重要なことは、DiT4DiTはサンプリング効率を10倍に改善し、コンバージェンスを最大7倍に高速化し、ビデオ生成がロボットポリシー学習の効果的なスケーリングプロキシとして機能することを実証している。
コードとモデルはhttps://dit4dit.github.io/で公開しています。
関連論文リスト
- GigaWorld-Policy: An Efficient Action-Centered World--Action Model [50.107640832046464]
GigaWorld-Policyはアクション中心のWAMで、2Dピクセルアクションのダイナミクスを学習し、オプションのビデオ生成で効率的なアクションデコーディングを可能にする。
実世界のロボットプラットフォームでの実験結果によると、GigaWorld-Policyは主要なWAMベースラインであるMotusの9倍高速で動作する。
論文 参考訳(メタデータ) (2026-03-18T00:52:02Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - AMPLIFY: Actionless Motion Priors for Robot Learning from Videos [29.799207502031496]
AMPLIFYは,大規模ビデオデータを活用する新しいフレームワークである。
我々は、豊富なアクションフリービデオでフォワードダイナミクスモデルを訓練し、限られたアクションラベル付き例で逆ダイナミクスモデルを訓練する。
下流の政策学習において、我々のダイナミクス予測は、低データのレシエーションにおいて1.2-2.2倍の改善を実現し、アクションフリーなヒューマンビデオから学ぶことで平均1.4倍の改善を実現し、非配布アクションデータからLIBEROタスクへの第1次一般化を可能にした。
論文 参考訳(メタデータ) (2025-06-17T05:31:42Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。