論文の概要: WALL-WM: Carving World Action Modeling at the Event Joints
- arxiv url: http://arxiv.org/abs/2606.01955v1
- Date: Mon, 01 Jun 2026 09:14:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.691407
- Title: WALL-WM: Carving World Action Modeling at the Event Joints
- Title(参考訳): WALL-WM: イベント関節における世界行動モデリング
- Authors: Shalfun Li, Victor Yao, Charles Yang, Truth Qu, Regis Cheng, Ryan Yu, Howard Lu, Newton Von, Vincent Chen, Yohann Tang, Maeve Zhang, Ellie Ma, Gody Li, Sage Yang, Lorien Shu, J. W. Gao, Ethan Chen, Colin Ye, Yu Sun, Elise Mon, PS Zhang, Neo Li, Lily Li, James Wang, Ping Yang, Chris Pan, Lucy Liang, Hang Su, Roy Gan, Hao Wang, Qian Wang,
- Abstract要約: WALL-WMは、ビデオアクション学習をチャンク中心の最適化からイベントグラウンドのVLA事前トレーニングに移行するWorld Action Modelである。
WALL-WMはこのミスマッチに対処するため、セマンティックイベントに関する監視とデータの両方を整理する。
実験により、WALL-WMは言語、シーン、タスクを幅広く一般化し、大規模実世界の一般化評価において最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 14.768586112050684
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: WALL-WM is a World Action Model that shifts video-action learning from chunk-centric optimization to event-grounded Vision-Language-Action pretraining, using semantically coherent action events as the atomic unit of learning. Existing WAMs commonly initialize from multimodal or video foundation models and then optimize fixed-length action chunks conditioned directly on the current observation and instruction. Although convenient, this chunk-centric formulation creates a fundamental granularity mismatch. Language describes semantic goals and events, vision evolves through continuous scene dynamics, and actions operate at control-level timescales; forcing all three into the same fixed-length prediction window turns VLA training into short-horizon correlation fitting. WALL-WM addresses this mismatch by organizing both supervision and data around semantic events. Specifically, it pairs event-grounded VLA pretraining with a data ecosystem built from event-level captions and cluster-balanced sampling, enabling scalable learning over diverse behaviors, scenes, and task structures. From the same event-pretrained backbone, WALL-WM supports two complementary inference modes. The event mode consumes next-event descriptions and enables variable-length execution chunks, while the unified mode uses a VLM with Staircase Decoding to condition conventional fixed-length chunk inference while preserving a gradient-continuous VLA path. Together with Muon-optimizer-based large-scale pretraining infrastructure, WALL-WM provides a practical scale-up recipe for general-purpose WAMs. Experiments show that WALL-WM generalizes broadly across language, scenes, and tasks, achieving state-of-the-art performance in large-scale real-world generalization evaluation.
- Abstract(参考訳): WALL-WMは、ビデオアクション学習をチャンク中心の最適化から、セマンティックコヒーレントなアクションイベントを学習のアトミック単位として使用して、イベントグラウンドのVision-Language-Actionプリトレーニングに移行する世界アクションモデルである。
既存のWAMは、一般にマルチモーダルまたはビデオ基盤モデルから初期化され、現在の観察と指示に基づいて条件付けられた固定長アクションチャンクを最適化する。
便利ではあるが、このチャンク中心の定式化は基本的な粒度のミスマッチを生み出す。
言語はセマンティックな目標とイベントを記述し、視覚は連続的なシーンのダイナミクスを通じて進化し、アクションは制御レベルの時間スケールで動作する。
WALL-WMはこのミスマッチに対処するため、セマンティックイベントに関する監視とデータの両方を整理する。
具体的には、イベントグレードのVLAプリトレーニングと、イベントレベルのキャプションとクラスタバランスのサンプリングから構築されたデータエコシステムを組み合わせることで、さまざまな振る舞いやシーン、タスク構造に関するスケーラブルな学習を可能にする。
同じイベント事前のバックボーンから、WALL-WMは2つの補完推論モードをサポートする。
イベントモードは次のイベント記述を消費し、可変長の実行チャンクを可能にする。一方、統一モードは、勾配連続VLAパスを保持しながら、従来の固定長チャンク推論を条件に、ステアケースデコード付きVLMを使用する。
Muon-Optimizerベースの大規模事前学習インフラとともに、WALL-WMは汎用WAMのための実用的なスケールアップレシピを提供する。
実験により、WALL-WMは言語、シーン、タスクを幅広く一般化し、大規模実世界の一般化評価において最先端のパフォーマンスを達成することが示された。
関連論文リスト
- EventVL: Understand Event Streams via Multimodal Large Language Model [29.23525787969373]
明示的意味理解のためのイベントベースMLLMフレームワークであるEventVLを提案する。
具体的には、異なるモダリティセマンティクスを接続するためにデータギャップをブリッジするために、まず大きなイベントイメージ/ビデオテキストデータセットに注釈を付ける。
よりコンパクトなセマンティック空間を促進するために、イベントのスパースなセマンティック空間を改善するために動的セマンティックアライメントが導入される。
論文 参考訳(メタデータ) (2025-01-23T14:37:21Z) - EventGPT: Event Stream Understanding with Multimodal Large Language Models [59.65010502000344]
イベントカメラは、視覚情報を非同期なピクセル変更ストリームとして記録し、不満足な照明や高ダイナミックな条件下でのシーン認識に優れる。
既存のマルチモーダル大言語モデル(MLLM)は、自然のRGBイメージに集中しており、イベントデータがより適合するシナリオでは失敗する。
イベントストリーム理解のための最初のMLLMであるEventGPTを紹介する。
論文 参考訳(メタデータ) (2024-12-01T14:38:40Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM [47.786978666537436]
本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。
局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。
グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
論文 参考訳(メタデータ) (2024-09-14T08:30:59Z) - GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling [89.07386210297373]
GenEARLは、イベントタスク記述を理解するために近代的な生成モデルの力を利用する、トレーニング不要な生成フレームワークである。
GenEARLは、M2E2データセットとSwiGデータセット上のゼロショットEARLに対して、CLIPベースラインを9.4%、精度14.2%で上回っている。
論文 参考訳(メタデータ) (2024-04-07T00:28:13Z) - ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot
End-to-End Temporal Action Detection [10.012716326383567]
時間的行動検出(TAD)は、未トリミングビデオ内のアクションインスタンスのローカライズと分類を含む。
ZEETADには2つのモジュールがあり、双対局在化とゼロショット提案分類という2つのモジュールがある。
軽量なアダプタで冷凍したCLIPエンコーダを最小限に更新することで、未確認クラスの識別能力を向上する。
論文 参考訳(メタデータ) (2023-11-01T00:17:37Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。