論文の概要: WorldVLA: Towards Autoregressive Action World Model
- arxiv url: http://arxiv.org/abs/2506.21539v1
- Date: Thu, 26 Jun 2025 17:55:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.238503
- Title: WorldVLA: Towards Autoregressive Action World Model
- Title(参考訳): WorldVLA: 自己回帰行動世界モデルを目指して
- Authors: Jun Cen, Chaohui Yu, Hangjie Yuan, Yuming Jiang, Siteng Huang, Jiayan Guo, Xin Li, Yibing Song, Hao Luo, Fan Wang, Deli Zhao, Hao Chen,
- Abstract要約: 本稿では,行動と画像の理解と生成を統一する自己回帰行動世界モデルWorldVLAを提案する。
WorldVLAは1つのフレームワークでVision-Language-Action(VLA)モデルとWorld Modelを相互運用する。
- 参考スコア(独自算出の注目度): 43.74612972649639
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present WorldVLA, an autoregressive action world model that unifies action and image understanding and generation. Our WorldVLA intergrates Vision-Language-Action (VLA) model and world model in one single framework. The world model predicts future images by leveraging both action and image understanding, with the purpose of learning the underlying physics of the environment to improve action generation. Meanwhile, the action model generates the subsequent actions based on image observations, aiding in visual understanding and in turn helps visual generation of the world model. We demonstrate that WorldVLA outperforms standalone action and world models, highlighting the mutual enhancement between the world model and the action model. In addition, we find that the performance of the action model deteriorates when generating sequences of actions in an autoregressive manner. This phenomenon can be attributed to the model's limited generalization capability for action prediction, leading to the propagation of errors from earlier actions to subsequent ones. To address this issue, we propose an attention mask strategy that selectively masks prior actions during the generation of the current action, which shows significant performance improvement in the action chunk generation task.
- Abstract(参考訳): 本稿では,行動と画像の理解と生成を統一する自己回帰行動世界モデルWorldVLAを提案する。
私たちのWorldVLAは、単一のフレームワークでビジョン・ランゲージ・アクション(VLA)モデルとワールドモデルとをインターグラトします。
世界モデルは、アクション生成を改善するために環境の基礎となる物理を学習することを目的として、アクションとイメージ理解の両方を活用することで将来のイメージを予測する。
一方、アクションモデルは、画像観察に基づいてその後のアクションを生成し、視覚的理解を支援し、それによって世界モデルの視覚的生成を支援する。
我々は、WorldVLAがスタンドアローンのアクションモデルとワールドモデルより優れており、ワールドモデルとアクションモデルとの相互強化が強調されていることを実証する。
さらに,行動モデルの性能は,自己回帰的に行動列を生成すると劣化することがわかった。
この現象は、モデルによる行動予測の限定的な一般化能力に起因し、初期の行動からその後の行動へのエラーの伝播につながる。
そこで本研究では,アクションチャンク生成タスクにおいて,前処理を選択的にマスキングするアテンションマスク戦略を提案する。
関連論文リスト
- WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning [52.36434784963598]
我々は、異なるAIモデルのワールドモデリングと手続き計画能力を評価するためのビデオベースのベンチマークであるWorldPredictionを紹介する。
現在のフロンティアモデルでは,WorldPrediction-WMでは57%,WorldPrediction-PPでは38%の精度しか達成できないが,人間は両タスクを完璧に解くことができる。
論文 参考訳(メタデータ) (2025-06-04T18:22:40Z) - AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。
主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。
次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文 参考訳(メタデータ) (2025-03-24T17:58:15Z) - Simplifying Latent Dynamics with Softly State-Invariant World Models [10.722955763425228]
エージェントの動作をより予測可能なものにするために、潜時力学を規則化する世界モデルであるParsimonious Latent Space Model (PLSM)を導入する。
我々の正規化は下流タスクの精度、一般化、性能を改善する。
論文 参考訳(メタデータ) (2024-01-31T13:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。