論文の概要: World Action Models are Zero-shot Policies
- arxiv url: http://arxiv.org/abs/2602.15922v1
- Date: Tue, 17 Feb 2026 15:04:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.400188
- Title: World Action Models are Zero-shot Policies
- Title(参考訳): 世界アクションモデルはゼロショットポリシー
- Authors: Seonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang,
- Abstract要約: 本稿では,予めトレーニングされたビデオ拡散バックボーン上に構築されたワールドアクションモデル(WAM)であるDreamZeroを紹介する。
ビデオとアクションを共同でモデリングすることで、DreamZeroは異種ロボットデータから多様なスキルを効果的に学習する。
ビデオのみによる他のロボットや人間によるデモは、目に見えないタスクのパフォーマンスに対して42%以上の相対的な改善をもたらす。
- 参考スコア(独自算出の注目度): 111.91938055103633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art Vision-Language-Action (VLA) models excel at semantic generalization but struggle to generalize to unseen physical motions in novel environments. We introduce DreamZero, a World Action Model (WAM) built upon a pretrained video diffusion backbone. Unlike VLAs, WAMs learn physical dynamics by predicting future world states and actions, using video as a dense representation of how the world evolves. By jointly modeling video and action, DreamZero learns diverse skills effectively from heterogeneous robot data without relying on repetitive demonstrations. This results in over 2x improvement in generalization to new tasks and environments compared to state-of-the-art VLAs in real robot experiments. Crucially, through model and system optimizations, we enable a 14B autoregressive video diffusion model to perform real-time closed-loop control at 7Hz. Finally, we demonstrate two forms of cross-embodiment transfer: video-only demonstrations from other robots or humans yield a relative improvement of over 42% on unseen task performance with just 10-20 minutes of data. More surprisingly, DreamZero enables few-shot embodiment adaptation, transferring to a new embodiment with only 30 minutes of play data while retaining zero-shot generalization.
- Abstract(参考訳): 最新技術であるVision-Language-Action(VLA)モデルは、セマンティック・ジェネリゼーションにおいて優れているが、新しい環境では見えない物理的な動きへの一般化に苦慮している。
本稿では,予めトレーニングされたビデオ拡散バックボーン上に構築されたワールドアクションモデル(WAM)であるDreamZeroを紹介する。
VLAとは異なり、WAMは将来の世界状態と行動を予測することによって物理力学を学習し、世界がどのように進化するかをビデオで表現する。
ビデオとアクションを共同でモデリングすることで、DreamZeroは、反復的なデモンストレーションに頼ることなく、異種ロボットデータから多様なスキルを効果的に学習する。
これにより、ロボット実験における最先端のVLAと比較して、新しいタスクや環境への一般化が2倍以上に向上する。
重要なことに、モデルとシステム最適化により、14Bの自己回帰型ビデオ拡散モデルが7Hzでリアルタイム閉ループ制御を行うことができる。
最後に、他のロボットや人間によるビデオのみのデモンストレーションは、10分から20分で、見えないタスクのパフォーマンスを相対的に42%向上させる。
より驚くべきことに、DreamZeroは、ゼロショットの一般化を維持しながら、30分のプレイデータしか持たない新しいエボディメントに移行して、数ショットのエボディメント適応を可能にする。
関連論文リスト
- DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos [110.98100817695307]
私たちはDreamDojoを紹介します。DreamDojoは、多種多様なインタラクションと、エゴセントリックな人間ビデオの44万時間から厳密なコントロールを学ぶ基礎的な世界モデルです。
本研究は, 遠隔操作, 政策評価, モデルベース計画など, 生成的世界モデルに基づくいくつかの重要な応用を可能にする。
論文 参考訳(メタデータ) (2026-02-06T18:49:43Z) - MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - MimicDreamer: Aligning Human and Robot Demonstrations for Scalable VLA Training [40.45924128424013]
低コストな人間によるデモンストレーションをロボットで使用可能な監視に変換するフレームワークであるMimicDreamerを提案する。
視覚的アライメントのために,高忠実度ロボットデモビデオを生成するビデオ拡散モデルH2R Alignerを提案する。
視点安定化のためにEgoStabilizerを提案する。
動作アライメントのために,人間の手の動きをロボットフレームにマッピングし,制約付き逆運動学解法を適用する。
論文 参考訳(メタデータ) (2025-09-26T11:05:10Z) - Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.62109400603394]
本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。
提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。
本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
論文 参考訳(メタデータ) (2025-07-21T13:19:09Z) - AMPLIFY: Actionless Motion Priors for Robot Learning from Videos [29.799207502031496]
AMPLIFYは,大規模ビデオデータを活用する新しいフレームワークである。
我々は、豊富なアクションフリービデオでフォワードダイナミクスモデルを訓練し、限られたアクションラベル付き例で逆ダイナミクスモデルを訓練する。
下流の政策学習において、我々のダイナミクス予測は、低データのレシエーションにおいて1.2-2.2倍の改善を実現し、アクションフリーなヒューマンビデオから学ぶことで平均1.4倍の改善を実現し、非配布アクションデータからLIBEROタスクへの第1次一般化を可能にした。
論文 参考訳(メタデータ) (2025-06-17T05:31:42Z) - DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。