論文の概要: Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning
- arxiv url: http://arxiv.org/abs/2606.05645v2
- Date: Tue, 09 Jun 2026 07:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.610871
- Title: Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning
- Title(参考訳): Discrete-WAM:World-Policy LearningのためのUnified Discrete Vision-Action Token Editing
- Authors: Ziyang Yao, Haochen Liu, Yuncheng Jiang, Zeyu Zhu, Zibin Guo, Jingru Wang, Tianle Liu, Jianwei Cui, Kuiyuan Yang, Hongwei Xie, Jingwei Zhao, Guang Chen, Hangjun Ye,
- Abstract要約: 我々は、視覚的観察、将来の状態、ハイレベルな決定、共有トークン空間内のエゴアクションを表す統合されたビジョンアクション世界政治フレームワークであるDiscrete-WAMを紹介する。
この離散的なアライメントに基づいて、離散WAMは、マルチタスクとマルチステージ事前トレーニングを通じて、ワールド・モデリング、ワールド・ポリティクス・モデリング、ポリシー・モデリングを共同で訓練する。
実験により、離散WAMは、制御可能な将来の生成、対実評価、サプライズベースのワールドモデル分析、効率的な並列ポリシー復号をサポートしながら、強い計画性能を達成することが示された。
- 参考スコア(独自算出の注目度): 28.162567330430928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving requires reasoning about how ego actions shape future world evolution, rather than merely mapping observations to actions. However, most end-to-end methods rely on direct state-to-action imitation, while existing world models often remain weakly aligned with downstream policy generation. We introduce Discrete-WAM, a unified discrete vision-action world-policy framework that represents visual observations, future states, high-level decisions, and ego actions within a shared token space. Built on this discrete alignment, Discrete-WAM jointly trains world modeling, world-policy modeling, and policy modeling through multi-task and multi-stage pretraining, allowing action-conditioned future prediction to directly support policy generation. For downstream planning, Discrete-WAM further decomposes policy generation into hierarchical decision prediction and parallel action-token editing, where the decision token provides a high-level planning skeleton and confidence-based scheduling refines dense future actions efficiently. Experiments on large-scale autonomous-driving benchmarks show that Discrete-WAM achieves strong planning performance while supporting controllable future generation, counterfactual evaluation, surprise-based world-model analysis, and efficient parallel policy decoding. These results suggest that discrete representation alignment, unified world-policy training, and hierarchical token editing provide a promising design paradigm for physical AI.
- Abstract(参考訳): 自律運転は、単に観察を行動にマッピングするのではなく、エゴの行動が将来の世界の進化をいかに形作るかについての推論を必要とする。
しかし、ほとんどのエンド・ツー・エンドの手法は直接状態からアクションへの模倣に依存しているが、既存の世界モデルは下流の政策生成と弱く一致していることが多い。
我々は、視覚的観察、将来の状態、ハイレベルな決定、共有トークン空間内のエゴアクションを表す統合された離散的なビジョンアクション世界政治フレームワークであるDisdisrete-WAMを紹介する。
この離散的なアライメントに基づいて、離散WAMは世界モデリング、世界政治モデリング、および多段階事前訓練を通じてポリシーモデリングを共同で訓練し、アクション条件付き将来の予測がポリシー生成を直接支援できるようにする。
下流の計画において、離散WAMはポリシー生成をさらに階層的な決定予測と並列アクショントケン編集に分解し、決定トークンは高レベルな計画スケルトンを提供し、信頼に基づくスケジューリングはより効率的な将来的な行動を改善する。
大規模自動運転ベンチマークの実験により、離散WAMは制御可能な将来の生成、反ファクト評価、サプライズベースのワールドモデル分析、効率的な並列ポリシー復号をサポートしながら、強力な計画性能を達成することが示された。
これらの結果は、離散的な表現アライメント、統一された世界政治トレーニング、階層的なトークン編集が、物理的なAIに有望な設計パラダイムをもたらすことを示唆している。
関連論文リスト
- WorldFly: A World-Model-Based Vision-Language-Action Model for UAV Navigation [42.8714305455232]
将来の状態を「想像」する能力は、そのような部分的な可観測性の下での堅牢な意思決定に不可欠である、と我々は主張する。
We propose WorldFly, a novel world-model-based VLA framework that using a dual-branch linked flow matching mechanism to jointly generate future video predictions and navigation action。
論文 参考訳(メタデータ) (2026-06-04T13:23:05Z) - Post-Deterministic Distributed Systems: A New Foundation for Trustworthy Autonomous Infrastructure [2.124730017640531]
ポスト決定論的分散システム(Post-Deterministic Distributed Systems)は、異種環境をコーディネートするための研究とエンジニアリングモデルである。
古典的分散コンピューティングモデルがこの参加者モデルの非曖昧性特別ケースを形成することを示す。
プロトコル駆動開発、検証可能なエージェントインフラストラクチャ、自律状態制御プレーン、セマンティッククオラム保証、エピステミック状態レプリケーションの5つのアーキテクチャ柱を概説する。
論文 参考訳(メタデータ) (2026-06-01T05:37:59Z) - HEAT: Heterogeneous End-to-End Autonomous Driving via Trajectory-Guided World Models [50.18051979020699]
エンドツーエンドの自動運転は、従来のモジュラーパイプラインに代わる魅力的な代替手段として登場した。
本稿では,計画軌道に関する学習を組織する軌道駆動学習パラダイムを提案する。
一つの統一モデルが、各ドメイン内で強いパフォーマンスを維持しながら、異種データセット上でトレーニング可能であることを示す。
論文 参考訳(メタデータ) (2026-05-19T10:12:01Z) - World Action Models: The Next Frontier in Embodied AI [123.5787299299832]
VLA(Vision-Language-Action)モデルは、具体的政策学習のための強力なセマンティックな一般化を実現している。
彼らは、物理的な世界が介入の下でどのように進化するかを明示的にモデル化することなく、リアクティブな観察から行動へのマッピングを学ぶ。
成長するこの制限には、世界モデル、環境ダイナミクスの予測モデル、アクション生成パイプラインを統合することで対処する。
論文 参考訳(メタデータ) (2026-05-12T13:10:52Z) - CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving [4.4380564455353975]
CoWorld-VLAは、自動運転のための多専門家の世界推論フレームワークである。
世界表現は行動計画を導くための明確な条件として機能する。
実験によると、CoWorld-VLAは将来のシーン生成と計画の両方で競争力を発揮する。
論文 参考訳(メタデータ) (2026-05-11T12:01:13Z) - Uni-World VLA: Interleaved World Modeling and Planning for Autonomous Driving [52.04950569530877]
我々は、将来のフレーム予測と軌道計画の密接なインターリーブを行う統合視覚言語行動モデルUni-World VLAを提案する。
提案手法は,高忠実度将来のフレーム予測を行いながら,競合する閉ループ計画性能を実現する。
論文 参考訳(メタデータ) (2026-03-28T14:39:51Z) - The Trinity of Consistency as a Defining Principle for General World Models [106.16462830681452]
一般世界モデルは、客観的物理法則を学習し、シミュレートし、推論することができる。
本稿では,一般世界モデルに必要な基本的特性を定義するための理論的枠組みを提案する。
我々の研究は、現在のシステムの限界と将来の進歩のためのアーキテクチャ要件の両方を明確にし、一般的な世界モデルへの原則的な経路を確立します。
論文 参考訳(メタデータ) (2026-02-26T16:15:55Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - Isolating and Leveraging Controllable and Noncontrollable Visual
Dynamics in World Models [65.97707691164558]
Iso-DreamはDream-to-Controlフレームワークを2つの側面で改善する。
まず、逆動力学を最適化することにより、世界モデルに制御可能で制御不能な情報源を学習させることを奨励する。
第2に、エージェントの挙動を世界モデルの切り離された潜在的想像力に最適化する。
論文 参考訳(メタデータ) (2022-05-27T08:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。