論文の概要: World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems
- arxiv url: http://arxiv.org/abs/2604.14732v1
- Date: Thu, 16 Apr 2026 07:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.787538
- Title: World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems
- Title(参考訳): World-Value-Action Model:Vision-Language-Action Systemのインシシシトプランニング
- Authors: Runze Li, Hongyin Zhang, Junxi Jin, Qixin Zeng, Zifeng Zhuang, Yiqi Tang, Shangke Lyu, Donglin Wang,
- Abstract要約: VLA(Vision-Language-Action)モデルは、知覚と言語を作用させるエンボディエージェントを構築するための有望なパラダイムとして登場した。
本稿では,VLAシステムにおける暗黙的な計画を可能にする統合フレームワークであるWorld-Value-Action(WAV)モデルを紹介する。
- 参考スコア(独自算出の注目度): 32.4918638412746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as a promising paradigm for building embodied agents that ground perception and language into action. However, most existing approaches rely on direct action prediction, lacking the ability to reason over long-horizon trajectories and evaluate their consequences, which limits performance in complex decision-making tasks. In this work, we introduce World-Value-Action (WAV) model, a unified framework that enables implicit planning in VLA systems. Rather than performing explicit trajectory optimization, WAV model learn a structured latent representation of future trajectories conditioned on visual observations and language instructions. A learned world model predicts future states, while a trajectory value function evaluates their long-horizon utility. Action generation is then formulated as inference in this latent space, where the model progressively concentrates probability mass on high-value and dynamically feasible trajectories. We provide a theoretical perspective showing that planning directly in action space suffers from an exponential decay in the probability of feasible trajectories as the horizon increases. In contrast, latent-space inference reshapes the search distribution toward feasible regions, enabling efficient long-horizon decision making. Extensive simulations and real-world experiments demonstrate that the WAV model consistently outperforms state-of-the-art methods, achieving significant improvements in task success rate, generalization ability, and robustness, especially in long-horizon and compositional scenarios.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、知覚と言語を作用させるエンボディエージェントを構築するための有望なパラダイムとして登場した。
しかし、既存のほとんどのアプローチは直接的な行動予測に依存しており、長い水平軌道を推論し、その結果を評価する能力がなく、複雑な意思決定タスクのパフォーマンスを制限している。
本稿では,VLAシステムにおける暗黙的な計画を可能にする統一フレームワークであるWorld-Value-Action(WAV)モデルを紹介する。
WAVモデルは、明示的な軌跡最適化を行うのではなく、視覚的な観察と言語指示に基づいて、将来の軌跡の構造化された潜在表現を学習する。
学習された世界モデルは将来の状態を予測し、軌跡値関数はその長期有効性を評価する。
アクション生成は、この潜在空間における推論として定式化され、モデルが確率質量を高値および動的に実現可能な軌道に徐々に集中する。
作用空間における直接計画は、地平線が増加するにつれて、実現可能な軌道の確率の指数的減衰に悩まされることを示す理論的な視点を提供する。
対照的に、潜在空間推論は検索分布を実現可能な領域に再認識し、効率的な長距離決定を可能にする。
大規模なシミュレーションと実世界の実験により、WAVモデルは、特に長期的・構成的なシナリオにおいて、タスク成功率、一般化能力、堅牢性を大幅に改善し、最先端の手法を一貫して上回ることを示した。
関連論文リスト
- Learning Vision-Language-Action World Models for Autonomous Driving [15.103497388527943]
VLA(Vision-Language-Action)モデルは最近、エンドツーエンドの自動運転において顕著な進歩を遂げている。
VLAモデルは時相力学と世界整合性の明示的なモデリングを欠いていることが多い。
VLA-World(VLA-World)は、予測的想像力と反射的推論を統一する、シンプルで効果的なVLA世界モデルである。
論文 参考訳(メタデータ) (2026-04-10T07:38:05Z) - ExploreVLA: Dense World Modeling and Exploration for End-to-End Autonomous Driving [19.081114003415863]
我々は,意味のある探索と密集した監視を実現するために,統合された理解・生成の枠組みを提案する。
我々は、高密度世界モデリングの目的として、将来のRGBと深度画像生成による軌道予測を強化した。
我々は、この探索信号を安全性の高い報酬に組み込んで、ポリシーを最適化する。
論文 参考訳(メタデータ) (2026-04-03T04:14:13Z) - LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning [51.969318585152116]
LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。
そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。
R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
論文 参考訳(メタデータ) (2026-03-31T02:21:59Z) - Uni-World VLA: Interleaved World Modeling and Planning for Autonomous Driving [52.04950569530877]
我々は、将来のフレーム予測と軌道計画の密接なインターリーブを行う統合視覚言語行動モデルUni-World VLAを提案する。
提案手法は,高忠実度将来のフレーム予測を行いながら,競合する閉ループ計画性能を実現する。
論文 参考訳(メタデータ) (2026-03-28T14:39:51Z) - ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model [53.15040805435013]
視覚言語モデル(VLM)は、一様にサンプリングされたフレームを解析することで、強力なセマンティックグラウンドと一般的な知識を提供する。
本稿では,高密度フレーム・ダイナミックス・モデリングと長軸意味指導を組み合わせたVLM誘導型JEPA型潜在世界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-23T17:59:42Z) - World Guidance: World Modeling in Condition Space for Action Generation [39.098315503589895]
アクション生成を容易にするために将来の観測モデルを活用することで、ビジョン・ランゲージ・アクション(VLA)モデルの能力を高めるための有望な道が提示される。
動作推論パイプラインに注入することで、将来の観測結果をコンパクトな条件にマッピングするフレームワークであるWoGを提案する。
この条件空間のモデル化と予測は, きめ細かな動作生成を促進するだけでなく, より優れた一般化能力を示すことを示す。
論文 参考訳(メタデータ) (2026-02-25T15:27:09Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Deep Active Inference Agents for Delayed and Long-Horizon Environments [1.693200946453174]
AIFエージェントは、遅れた環境で悪化する制限である正確な即時予測と徹底的な計画に依存している。
本稿では,複数段階の遅延遷移を特徴とする生成型政治アーキテクチャを提案する。
我々は,遅延と長期化の設定で現実的な産業シナリオを模倣した環境におけるエージェントの評価を行った。
論文 参考訳(メタデータ) (2025-05-26T11:50:22Z) - Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文 参考訳(メタデータ) (2024-12-18T12:10:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。