論文の概要: Fast-WAM: Do World Action Models Need Test-time Future Imagination?
- arxiv url: http://arxiv.org/abs/2603.16666v1
- Date: Tue, 17 Mar 2026 15:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.377303
- Title: Fast-WAM: Do World Action Models Need Test-time Future Imagination?
- Title(参考訳): Fast-WAM: World Action Modelsはテストタイムの将来のイマジネーションを必要とするか?
- Authors: Tianyuan Yuan, Zibin Dong, Yicheng Liu, Hang Zhao,
- Abstract要約: 世界行動モデル(WAM)は、身体制御のためのビジョン・ランゲージ・アクション(VLA)モデルに代わる有望な代替品として登場した。
我々は、WAMがテスト時に明らかに将来的な想像力を必要とするのか、それともトレーニング中に主にビデオモデリングから得られる利益なのかを問う。
我々は、トレーニング中にビデオのコトレーニングを継続するが、テスト時に将来の予測を省略するWAMアーキテクチャであるFast-WAMを提案する。
- 参考スコア(独自算出の注目度): 39.17692664456295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World Action Models (WAMs) have emerged as a promising alternative to Vision-Language-Action (VLA) models for embodied control because they explicitly model how visual observations may evolve under action. Most existing WAMs follow an imagine-then-execute paradigm, incurring substantial test-time latency from iterative video denoising, yet it remains unclear whether explicit future imagination is actually necessary for strong action performance. In this paper, we ask whether WAMs need explicit future imagination at test time, or whether their benefit comes primarily from video modeling during training. We disentangle the role of video modeling during training from explicit future generation during inference by proposing \textbf{Fast-WAM}, a WAM architecture that retains video co-training during training but skips future prediction at test time. We further instantiate several Fast-WAM variants to enable a controlled comparison of these two factors. Across these variants, we find that Fast-WAM remains competitive with imagine-then-execute variants, while removing video co-training causes a much larger performance drop. Empirically, Fast-WAM achieves competitive results with state-of-the-art methods both on simulation benchmarks (LIBERO and RoboTwin) and real-world tasks, without embodied pretraining. It runs in real time with 190ms latency, over 4$\times$ faster than existing imagine-then-execute WAMs. These results suggest that the main value of video prediction in WAMs may lie in improving world representations during training rather than generating future observations at test time. Project page: https://yuantianyuan01.github.io/FastWAM/
- Abstract(参考訳): 世界行動モデル(WAM)は、視覚的な観察が行動下でどのように進化するかを明確にモデル化するため、視覚ランゲージ・アクション(VLA)モデルに代わる有望な代替品として出現している。
既存のWAMの多くは、イテレーティブなビデオのデノゲーションからかなりのテストタイムの遅延をもたらす、想像=実行のパラダイムに従っている。
本稿では、WAMがテスト時に明らかに将来的な想像力を必要とするのか、それともトレーニング中のビデオモデリングから得られるメリットなのかを問う。
我々は、トレーニング中にビデオのコトレーニングを継続するが、テスト時に将来の予測を省略するWAMアーキテクチャである \textbf{Fast-WAM} を提案することにより、推論中の明示的な未来の世代からトレーニング中のビデオモデリングの役割を遠ざけている。
さらに、これらの2つの要因の制御された比較を可能にするために、いくつかのFast-WAM変異体をインスタンス化する。
これらの変種全体では、Fast-WAMは想像=実行時の変種と競合し続けているが、ビデオのコトレーニングを削除することでパフォーマンスが大幅に低下している。
実証的には、Fast-WAMは、シミュレーションベンチマーク(LIBEROとRoboTwin)と実世界のタスクの両方で、事前トレーニングを具体化せずに、最先端の手法で競合する結果を得る。
190msのレイテンシでリアルタイムに動作し、既存のImagine-then-execute WAMよりも4$\times$以上高速です。
これらの結果から,WAMにおける映像予測の主な価値は,テスト時に将来の観察結果を生成するのではなく,トレーニング中の世界表現を改善することにある可能性が示唆された。
プロジェクトページ:https://yuantianyuan01.github.io/FastWAM/
関連論文リスト
- S-VAM: Shortcut Video-Action Model by Self-Distilling Geometric and Semantic Foresight [42.690473567612116]
ビデオアクションモデル(VAM)は、ロボット学習のための有望なパラダイムとして登場した。
S-VAMは、1つのフォワードパスを介してコヒーレントな幾何学的および意味的表現を予測できるショートカットビデオアクションモデルである。
論文 参考訳(メタデータ) (2026-03-17T07:21:28Z) - World Action Models are Zero-shot Policies [111.91938055103633]
本稿では,予めトレーニングされたビデオ拡散バックボーン上に構築されたワールドアクションモデル(WAM)であるDreamZeroを紹介する。
ビデオとアクションを共同でモデリングすることで、DreamZeroは異種ロボットデータから多様なスキルを効果的に学習する。
ビデオのみによる他のロボットや人間によるデモは、目に見えないタスクのパフォーマンスに対して42%以上の相対的な改善をもたらす。
論文 参考訳(メタデータ) (2026-02-17T15:04:02Z) - What Happens When: Learning Temporal Orders of Events in Videos [23.17822149091485]
Video Large Multimodal Models (VLMM) はビデオ理解において顕著な性能を示しているが、複数のイベントの時間順序を正確に把握する能力はいまだ探索されていない。
本稿では,イベントの時間的順序を識別するモデルの能力を明確に評価するために,VECTORを提案する。
本稿では,詳細なイベント・バイ・イベントの映像記述をモデルとしてトレーニングし,時間的意識を高めるために,推論時にチェーン・オブ・ソート・プロンプトを利用するMECOTを提案する。
論文 参考訳(メタデータ) (2025-12-05T07:50:59Z) - Rethinking Visual Intelligence: Insights from Video Pretraining [75.32388528274224]
大規模言語モデル(LLM)は、大規模事前学習によってシステムが新しい問題に迅速に適応できることを実証している。
本稿では,映像拡散モデル(VDM)をギャップを埋めるための有望な方向として検討する。
論文 参考訳(メタデータ) (2025-10-28T14:12:11Z) - How Important are Videos for Training Video LLMs? [55.965474658745315]
画像のみのトレーニングでは,ビデオLLMの方が時間的推論能力が高いことが示唆された。
本稿では,注釈付き画像のシーケンスと時間的機能に着目した質問を含む簡易な微調整手法を提案する。
これは、現在のモデルによるリアルタイムビデオに見られる豊富な時間的特徴の最適部分利用を示唆している。
論文 参考訳(メタデータ) (2025-06-07T21:32:19Z) - EVA: An Embodied World Model for Future Video Anticipation [30.721105710709008]
ビデオ生成モデルは将来の状態をシミュレートする上で大きな進歩を遂げており、擬似シナリオにおける世界シミュレータとしての可能性を示している。
既存のモデルは、しばしば堅牢な理解が欠如しており、マルチステップの予測を実行したり、アウト・オブ・ディストリビューション(OOD)シナリオを処理する能力を制限する。
本稿では,映像予測の強化を目的とした中間的推論手法であるリフレクション・オブ・ジェネレーション(RoG)を提案する。
論文 参考訳(メタデータ) (2024-10-20T18:24:00Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。