論文の概要: World Action Models: The Next Frontier in Embodied AI
- arxiv url: http://arxiv.org/abs/2605.12090v1
- Date: Tue, 12 May 2026 13:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.876471
- Title: World Action Models: The Next Frontier in Embodied AI
- Title(参考訳): 世界アクションモデル - エンボディードAIの次のフロンティア
- Authors: Siyin Wang, Junhao Shi, Zhaoyang Fu, Xinzhe He, Feihong Liu, Chenchen Yang, Yikang Zhou, Zhaoye Fei, Jingjing Gong, Jinlan Fu, Mike Zheng Shou, Xuanjing Huang, Xipeng Qiu, Yu-Gang Jiang,
- Abstract要約: VLA(Vision-Language-Action)モデルは、具体的政策学習のための強力なセマンティックな一般化を実現している。
彼らは、物理的な世界が介入の下でどのように進化するかを明示的にモデル化することなく、リアクティブな観察から行動へのマッピングを学ぶ。
成長するこの制限には、世界モデル、環境ダイナミクスの予測モデル、アクション生成パイプラインを統合することで対処する。
- 参考スコア(独自算出の注目度): 123.5787299299832
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language-Action (VLA) models have achieved strong semantic generalization for embodied policy learning, yet they learn reactive observation-to-action mappings without explicitly modeling how the physical world evolves under intervention. A growing body of work addresses this limitation by integrating world models, predictive models of environment dynamics, into the action generation pipeline. We term this emerging paradigm World Action Models (WAMs): embodied foundation models that unify predictive state modeling with action generation, targeting a joint distribution over future states and actions rather than actions alone. However, the literature remains fragmented across architectures, learning objectives, and application scenarios, lacking a unified conceptual framework. We formally define WAMs and disambiguate them from related concepts, and trace the foundations and early integration of VLA and world model research that gave rise to this paradigm. We organize existing methods into a structured taxonomy of Cascaded and Joint WAMs, with further subdivision by generation modality, conditioning mechanism, and action decoding strategy. We systematically analyze the data ecosystem fueling WAMs development, spanning robot teleoperation, portable human demonstrations, simulation, and internet-scale egocentric video, and synthesize emerging evaluation protocols organized around visual fidelity, physical commonsense, and action plausibility. Overall, this survey provides the first systematic account of the WAMs landscape, clarifies key architectural paradigms and their trade-offs, and identifies open challenges and future opportunities for this rapidly evolving field.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ポリシー学習を具体化するための強力なセマンティックな一般化を実現しているが、物理的な世界が介入の下でどのように進化するかを明示的にモデル化することなく、リアクティブな観察から行動へのマッピングを学習している。
成長するこの制限には、世界モデル、環境ダイナミクスの予測モデル、アクション生成パイプラインを統合することで対処する。
我々は、この新たなパラダイムである World Action Models (WAMs): アクション生成と予測状態モデリングを統一する基礎モデルを具現化したものであり、アクションのみではなく、将来の状態とアクションに対する共同分布をターゲットにしている。
しかし、文献はアーキテクチャ、学習目的、アプリケーションシナリオで断片化され、統一された概念的なフレームワークが欠如している。
我々は、WAMを正式に定義し、関連する概念と区別し、VLAと世界モデル研究の基礎と初期の統合を辿り、このパラダイムを生み出した。
我々は,既存の手法をカスケードとジョイントWAMの構造分類に分類し,生成モダリティ,コンディショニング機構,行動復号戦略によりさらに細分化する。
我々は、WAMの開発、ロボット遠隔操作、携帯型人間デモ、シミュレーション、インターネットスケールのエゴセントリックなビデオにまたがるデータエコシステムを体系的に分析し、視覚的忠実さ、身体的常識、行動の可視性に関する新たな評価プロトコルを合成する。
全体として、この調査は、WAMの展望を初めて体系的に説明し、重要なアーキテクチャパラダイムとそのトレードオフを明らかにし、この急速に発展する分野におけるオープンな課題と将来の機会を特定します。
関連論文リスト
- The Trinity of Consistency as a Defining Principle for General World Models [106.16462830681452]
一般世界モデルは、客観的物理法則を学習し、シミュレートし、推論することができる。
本稿では,一般世界モデルに必要な基本的特性を定義するための理論的枠組みを提案する。
我々の研究は、現在のシステムの限界と将来の進歩のためのアーキテクチャ要件の両方を明確にし、一般的な世界モデルへの原則的な経路を確立します。
論文 参考訳(メタデータ) (2026-02-26T16:15:55Z) - Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks [43.59401259468559]
我々は、ロバストな世界モデルは、能力の緩やかな集まりではなく、相互作用、知覚、象徴的推論、空間的表現を一体的に組み込んだ規範的な枠組みであるべきだと主張する。
この研究は、未来の研究を世界のより一般的で堅牢で原則化されたモデルへと導くことを目的としている。
論文 参考訳(メタデータ) (2026-02-02T04:42:44Z) - A Step Toward World Models: A Survey on Robotic Manipulation [58.8419978790227]
本稿では,ロボット操作の手法のレビューを通じて,世界モデルのコア機能を示すアプローチについて考察する。
我々は、認識、予測、制御にまたがる役割を分析し、主要な課題と解決策を特定し、完全に実現された世界モデルが持つべきコアコンポーネント、能力、機能を蒸留する。
論文 参考訳(メタデータ) (2025-10-31T00:57:24Z) - Co-Evolving Latent Action World Models [57.48921576959243]
学習済みのビデオモデルを潜在アクションを介して制御可能な世界モデルに適応させることは、ジェネラリストの世界モデルを作成するための有望なステップである。
本稿では,この相乗的パラダイムを初めて実現したCoLA-Worldを提案する。
世界モデルは知識のある家庭教師として機能し、高品質のLAMを形成するための勾配を提供する。
論文 参考訳(メタデータ) (2025-10-30T12:28:40Z) - From Forecasting to Planning: Policy World Model for Collaborative State-Action Prediction [57.56072009935036]
政策世界モデル(PWM)と呼ばれる新しい運転パラダイムを導入する。
PWMは、統一アーキテクチャ内での世界モデリングと軌道計画を統合する。
提案手法は,マルチビューおよびマルチモーダル入力に依存する最先端の手法に適合するか,あるいは超越する。
論文 参考訳(メタデータ) (2025-10-22T14:57:51Z) - Vision Language Action Models in Robotic Manipulation: A Systematic Review [1.1767330101986737]
ビジョン言語アクション(VLA)モデルは、ロボット工学の変革的なシフトを表す。
本稿では,VLAパラダイムの包括的で先進的な合成について述べる。
102のVLAモデル、26の基盤データセット、12のシミュレーションプラットフォームを分析します。
論文 参考訳(メタデータ) (2025-07-14T18:00:34Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - Vision-Language-Action Models: Concepts, Progress, Applications and Challenges [4.180065442680541]
Vision-Language-Actionモデルは、知覚、自然言語理解、実施された行動を単一の計算フレームワーク内で統一することを目的としている。
この基礎的なレビューは、ビジョン・ランゲージ・アクションモデルにおける最近の進歩の包括的合成を提示する。
主要な進歩分野は、アーキテクチャの革新、パラメータ効率のトレーニング戦略、リアルタイム推論アクセラレーションである。
論文 参考訳(メタデータ) (2025-05-07T19:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。