Fugu-MT 論文翻訳(概要): WorldVLA: Towards Autoregressive Action World Model

論文の概要: WorldVLA: Towards Autoregressive Action World Model

arxiv url: http://arxiv.org/abs/2506.21539v1
Date: Thu, 26 Jun 2025 17:55:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-27 19:53:10.238503
Title: WorldVLA: Towards Autoregressive Action World Model
Title（参考訳）: WorldVLA: 自己回帰行動世界モデルを目指して
Authors: Jun Cen, Chaohui Yu, Hangjie Yuan, Yuming Jiang, Siteng Huang, Jiayan Guo, Xin Li, Yibing Song, Hao Luo, Fan Wang, Deli Zhao, Hao Chen,
Abstract要約: 本稿では,行動と画像の理解と生成を統一する自己回帰行動世界モデルWorldVLAを提案する。 WorldVLAは1つのフレームワークでVision-Language-Action(VLA)モデルとWorld Modelを相互運用する。
参考スコア（独自算出の注目度）: 43.74612972649639
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present WorldVLA, an autoregressive action world model that unifies action and image understanding and generation. Our WorldVLA intergrates Vision-Language-Action (VLA) model and world model in one single framework. The world model predicts future images by leveraging both action and image understanding, with the purpose of learning the underlying physics of the environment to improve action generation. Meanwhile, the action model generates the subsequent actions based on image observations, aiding in visual understanding and in turn helps visual generation of the world model. We demonstrate that WorldVLA outperforms standalone action and world models, highlighting the mutual enhancement between the world model and the action model. In addition, we find that the performance of the action model deteriorates when generating sequences of actions in an autoregressive manner. This phenomenon can be attributed to the model's limited generalization capability for action prediction, leading to the propagation of errors from earlier actions to subsequent ones. To address this issue, we propose an attention mask strategy that selectively masks prior actions during the generation of the current action, which shows significant performance improvement in the action chunk generation task.
Abstract（参考訳）: 本稿では,行動と画像の理解と生成を統一する自己回帰行動世界モデルWorldVLAを提案する。私たちのWorldVLAは、単一のフレームワークでビジョン・ランゲージ・アクション(VLA)モデルとワールドモデルとをインターグラトします。世界モデルは、アクション生成を改善するために環境の基礎となる物理を学習することを目的として、アクションとイメージ理解の両方を活用することで将来のイメージを予測する。一方、アクションモデルは、画像観察に基づいてその後のアクションを生成し、視覚的理解を支援し、それによって世界モデルの視覚的生成を支援する。我々は、WorldVLAがスタンドアローンのアクションモデルとワールドモデルより優れており、ワールドモデルとアクションモデルとの相互強化が強調されていることを実証する。さらに,行動モデルの性能は,自己回帰的に行動列を生成すると劣化することがわかった。この現象は、モデルによる行動予測の限定的な一般化能力に起因し、初期の行動からその後の行動へのエラーの伝播につながる。そこで本研究では,アクションチャンク生成タスクにおいて,前処理を選択的にマスキングするアテンションマスク戦略を提案する。

関連論文リスト

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [56.3802428957899]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。 DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文参考訳（メタデータ） (2025-07-06T16:14:29Z)
WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning [52.36434784963598]
我々は、異なるAIモデルのワールドモデリングと手続き計画能力を評価するためのビデオベースのベンチマークであるWorldPredictionを紹介する。現在のフロンティアモデルでは,WorldPrediction-WMでは57%,WorldPrediction-PPでは38%の精度しか達成できないが,人間は両タスクを完璧に解くことができる。
論文参考訳（メタデータ） (2025-06-04T18:22:40Z)
Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。この生成は、環境の永続的な3Dマップに集約される。
論文参考訳（メタデータ） (2025-05-05T17:59:17Z)
AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文参考訳（メタデータ） (2025-03-24T17:58:15Z)
Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文参考訳（メタデータ） (2025-02-10T14:49:09Z)
Making Large Language Models into World Models with Precondition and Effect Knowledge [1.8561812622368763]
本研究では,Large Language Models (LLM) を2つの重要な世界モデル関数の実行に利用することができることを示す。我々は、我々のモデルが生み出す前提条件と効果知識が、世界力学の人間の理解と一致していることを検証する。
論文参考訳（メタデータ） (2024-09-18T19:28:04Z)
OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving [12.004183122121042]
OccLLaMA (OccLLaMA) は、言語による世界モデルである。私たちは、視覚、言語、行動のための統合されたマルチモーダル語彙を構築します。 OccLLaMAは複数のタスクで競合性能を達成する。
論文参考訳（メタデータ） (2024-09-05T06:30:01Z)
Simplifying Latent Dynamics with Softly State-Invariant World Models [10.722955763425228]
エージェントの動作をより予測可能なものにするために、潜時力学を規則化する世界モデルであるParsimonious Latent Space Model (PLSM)を導入する。我々の正規化は下流タスクの精度、一般化、性能を改善する。
論文参考訳（メタデータ） (2024-01-31T13:52:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。