論文の概要: World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis
- arxiv url: http://arxiv.org/abs/2606.05979v1
- Date: Thu, 04 Jun 2026 10:23:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.721292
- Title: World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis
- Title(参考訳): World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis
- Authors: Yi Yang, Zhihong Liu, Siqi Kou, Yiyang Chen, Yanzhe Hu, Jianbo Zhou, Boyuan Zhao, Zhijie Wei, Xiao Xia, Xueqi Li, Pengfei Liu, Zhijie Deng,
- Abstract要約: 我々は,新しい基礎モデルのクラスとして,世界言語アクションモデルを提案する。
WLAはテキストのインストラクション、画像、ロボットステートを入力として、テキストのサブタスク、サブゴールイメージ、ロボットアクションを共同で予測する。
We show that WLA-0 achieve a state-of-the-the-art multi-task and long-horizon learning abilities、例えば、RoboTwin2.0 Clean の92.94%、RMBench の56.5%の成功率。
- 参考スコア(独自算出の注目度): 37.19737492128721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose world-language-action (WLA) models as a new class of embodied foundation models. WLA takes textual instructions, images, and robot states as inputs to jointly predict textual subtasks, subgoal images, and robot actions, conjoining the \emph{world modeling interface} to learn from extensive egocentric videos as in the world-action model (WAM) and the \emph{language reasoning} capacities to solve complex long-horizon tasks as in vision-language-action (VLA) models. At the core of WLA lies an \emph{autoregressive (AR)} Transformer backbone, instead of a bidirectional diffusion Transformer as in WAMs, to predict the \emph{next state}, comprising the \emph{semantic-level} textual intention and complementary \emph{fine-grained} physical dynamics. The physical dynamics are supervised by the world modeling objective based on a dedicated World Expert, and are leveraged to ease the characterization of the state-action correlation for the Action Expert. WLA leverages meta-queries to make the world prediction \emph{implicitly} impact the action generation so that the former can be disabled during inference. The world prediction can also be activated to enable test-time scaling for improved robot control. Our WLA-0 prototype, with 2B active parameters, achieves 40 ms per inference on an NVIDIA RTX 5090. Evaluations across simulated and real-world environments demonstrate that WLA-0 achieves state-of-the-art multi-task and long-horizon learning abilities, e.g., 92.94\% success rate on RoboTwin2.0 Clean and 56.5\% success rate on RMBench. WLA-0 also holds the promise to learn novel tasks directly from \emph{cross-embodiment robot videos} without action annotations.
- Abstract(参考訳): 本稿では,世界言語行動モデル(WLA)を具体化基礎モデルの新たなクラスとして提案する。
WLAは、テキストサブタスク、サブゴールイメージ、ロボットアクションを共同で予測する入力としてテキスト命令、画像、ロボットステートを、ワールドアクションモデル(WAM)のような広範囲なエゴセントリックなビデオから学習し、視覚言語アクションモデル(VLA)モデルのような複雑なロングホライゾンタスクを解決するために、WLAはテキストインストラクション、画像、ロボットステートを入力として利用する。
WLAの中核には、WAMのような双方向拡散変換器の代わりに、emph{autoregressive (AR)変換器のバックボーンがあり、emph{next state} を予測する。
物理力学は、専用のワールドエキスパートに基づく世界モデリングの目的によって制御され、アクションエキスパートの状態-行動相関のキャラクタリゼーションを容易にするために活用される。
WLAはメタクエリを活用して、世界予測 \emph{implicitly} がアクション生成に影響を与えるようにし、推論中に前者が無効になるようにする。
ロボット制御の改善のために、テストタイムのスケーリングを可能にするために、世界予測を起動することもできる。
WLA-0のプロトタイプは2Bのアクティブパラメータを持ち、NVIDIA RTX 5090で40ms/inferenceを実現しています。
シミュレーションおよび実世界の環境における評価は、WLA-0が最先端のマルチタスクと長距離学習能力、例えばRoboTwin2.0の92.94\%の成功率、RMBenchの56.5\%の成功率を達成することを示した。
WLA-0はまた、アクションアノテーションなしで‘emph{cross-embodiment robot video’から直接新しいタスクを学ぶことを約束している。
関連論文リスト
- MotuBrain: An Advanced World Action Model for Robot Control [23.733029557644354]
We present MotuBrain, a unified World Action Model that jointly model video and action under a UniDiffuser formulation。
単一のモデルは、ポリシー学習、世界モデリング、ビデオ生成、逆ダイナミクス、共同ビデオアクション予測をサポートする。
Motus上に構築されているMotuBrainは、言語と相互作用の結合を強くするための独立したテキストストリームである、統一されたマルチビューモデリングも導入している。
我々の推論スタックは、ステップの削減、コンパイル、FP8量子化、DiTキャッシュ、V2Aスタイルのアクション専用推論、リアルタイムチャンククループ実行を組み合わせたものです。
論文 参考訳(メタデータ) (2026-04-30T12:34:44Z) - Do World Action Models Generalize Better than VLAs? A Robustness Study [25.418384276142223]
視覚言語アクション(VLA)は、様々なロボットタスクで顕著な成功を収めた。
世界行動モデル(WAM)は、将来の状態を予測するために大量のビデオデータに基づいて訓練された世界モデルに基づいて構築される。
LIBERO-Plus と RoboTwin 2.0-Plus のベンチマークにおいて,様々な視覚的・言語的摂動による性能評価を行った。
論文 参考訳(メタデータ) (2026-03-23T15:13:15Z) - GigaWorld-Policy: An Efficient Action-Centered World--Action Model [50.107640832046464]
GigaWorld-Policyはアクション中心のWAMで、2Dピクセルアクションのダイナミクスを学習し、オプションのビデオ生成で効率的なアクションデコーディングを可能にする。
実世界のロボットプラットフォームでの実験結果によると、GigaWorld-Policyは主要なWAMベースラインであるMotusの9倍高速で動作する。
論文 参考訳(メタデータ) (2026-03-18T00:52:02Z) - World Action Models are Zero-shot Policies [111.91938055103633]
本稿では,予めトレーニングされたビデオ拡散バックボーン上に構築されたワールドアクションモデル(WAM)であるDreamZeroを紹介する。
ビデオとアクションを共同でモデリングすることで、DreamZeroは異種ロボットデータから多様なスキルを効果的に学習する。
ビデオのみによる他のロボットや人間によるデモは、目に見えないタスクのパフォーマンスに対して42%以上の相対的な改善をもたらす。
論文 参考訳(メタデータ) (2026-02-17T15:04:02Z) - GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning [44.63316677431278]
我々は、世界モデルに基づく強化学習を通して訓練されたVLAモデルである textitGigaBrain-0.5M* を提案する。
textitGigaBrain-0.5M*はTextitGigaBrain-0.5上に構築されている。
論文 参考訳(メタデータ) (2026-02-12T15:55:19Z) - Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - Latent Action Pretraining Through World Modeling [1.988007188564225]
自己教師型手法で模倣学習モデルを事前学習するためのモデルに依存しないフレームワークであるLAWMを提案する。
当社のフレームワークは,タスクや環境,実施環境の移動に有効であるように設計されています。
論文 参考訳(メタデータ) (2025-09-22T21:19:10Z) - FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文 参考訳(メタデータ) (2025-05-21T15:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。