論文の概要: Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning
- arxiv url: http://arxiv.org/abs/2606.05645v1
- Date: Thu, 04 Jun 2026 03:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.517244
- Title: Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning
- Title(参考訳): Discrete-WAM:World-Policy LearningのためのUnified Discrete Vision-Action Token Editing
- Authors: Ziyang Yao, Haochen Liu, Yuncheng Jiang, Zeyu Zhu, Zibin Guo, Jingru Wang, Tianle Liu, Jianwei Cui, Kuiyuan Yang, Hongwei Xie, Jingwei Zhao, Guang Chen, Hangjun Ye,
- Abstract要約: 我々は、将来の視覚状態とエゴアクションを整列した離散トークンとして表現する、統合された潜在視覚行動世界政策であるDiscrete-WAMを紹介する。
この統合されたアライメントに基づいて、離散WAMは、統一された生成タスクを持つ共有離散拡散フレームワークを確立する。
大規模自動運転ベンチマークの実験では、離散WAMは制御可能な生成と反ファクト推論をサポートしながら、競争性能を達成する。
- 参考スコア(独自算出の注目度): 28.162567330430928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving requires reasoning about how ego actions shape the evolution of the surrounding world. However, most end-to-end methods rely on direct state-to-action mappings, capturing correlations without explicitly modeling action-conditioned dynamics. Conversely, continuous-latent world models often lack compositional structure for causal reasoning across counterfactual futures. We introduce Discrete-WAM, a unified latent vision-action world policy that represents future visual states and ego actions as aligned discrete tokens, enabling compositional causal reasoning across alternative futures. Built upon this unified discrete alignment, Discrete-WAM establishes a shared discrete diffusion framework with unified generative tasks, jointly formulating world modeling, world-action policy, and hierarchical decision-enabled policy, supporting compositional generalization across diverse driving scenarios. Experiments on large-scale autonomous-driving benchmarks show that Discrete-WAM achieves competitive performance while supporting controllable generation and counterfactual reasoning, offering a principled path toward more reliable decision-making.
- Abstract(参考訳): 自律運転は、エゴの行動が周囲の世界の進化をいかに形作るかについての推論を必要とする。
しかし、ほとんどのエンドツーエンドの手法は直接状態から行動へのマッピングに依存しており、行動条件のダイナミクスを明示的にモデル化することなく相関を捉えている。
逆に、連続ラテント世界モデルは、しばしば反現実的未来を越えて因果推論のための構成的構造を欠いている。
我々は、将来の視覚状態とエゴアクションを整列した離散トークンとして表現し、他の未来にまたがる構成因果推論を可能にする統合潜在視覚行動世界政策であるDiscrete-WAMを紹介する。
この統合された離散的アライメントに基づいて、離散WAMは、統一された生成タスク、共同で世界モデリング、世界アクションポリシー、階層的な決定可能なポリシーを定式化し、様々な運転シナリオにおける構成的一般化を支援する、共有された離散拡散フレームワークを確立する。
大規模自動運転ベンチマークの実験では、離散WAMは制御可能な生成と反ファクト推論をサポートし、より信頼性の高い意思決定への原則的な道筋を提供しながら、競争性能を達成することが示されている。
関連論文リスト
- WorldFly: A World-Model-Based Vision-Language-Action Model for UAV Navigation [42.8714305455232]
将来の状態を「想像」する能力は、そのような部分的な可観測性の下での堅牢な意思決定に不可欠である、と我々は主張する。
We propose WorldFly, a novel world-model-based VLA framework that using a dual-branch linked flow matching mechanism to jointly generate future video predictions and navigation action。
論文 参考訳(メタデータ) (2026-06-04T13:23:05Z) - Post-Deterministic Distributed Systems: A New Foundation for Trustworthy Autonomous Infrastructure [2.124730017640531]
ポスト決定論的分散システム(Post-Deterministic Distributed Systems)は、異種環境をコーディネートするための研究とエンジニアリングモデルである。
古典的分散コンピューティングモデルがこの参加者モデルの非曖昧性特別ケースを形成することを示す。
プロトコル駆動開発、検証可能なエージェントインフラストラクチャ、自律状態制御プレーン、セマンティッククオラム保証、エピステミック状態レプリケーションの5つのアーキテクチャ柱を概説する。
論文 参考訳(メタデータ) (2026-06-01T05:37:59Z) - HEAT: Heterogeneous End-to-End Autonomous Driving via Trajectory-Guided World Models [50.18051979020699]
エンドツーエンドの自動運転は、従来のモジュラーパイプラインに代わる魅力的な代替手段として登場した。
本稿では,計画軌道に関する学習を組織する軌道駆動学習パラダイムを提案する。
一つの統一モデルが、各ドメイン内で強いパフォーマンスを維持しながら、異種データセット上でトレーニング可能であることを示す。
論文 参考訳(メタデータ) (2026-05-19T10:12:01Z) - World Action Models: The Next Frontier in Embodied AI [123.5787299299832]
VLA(Vision-Language-Action)モデルは、具体的政策学習のための強力なセマンティックな一般化を実現している。
彼らは、物理的な世界が介入の下でどのように進化するかを明示的にモデル化することなく、リアクティブな観察から行動へのマッピングを学ぶ。
成長するこの制限には、世界モデル、環境ダイナミクスの予測モデル、アクション生成パイプラインを統合することで対処する。
論文 参考訳(メタデータ) (2026-05-12T13:10:52Z) - CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving [4.4380564455353975]
CoWorld-VLAは、自動運転のための多専門家の世界推論フレームワークである。
世界表現は行動計画を導くための明確な条件として機能する。
実験によると、CoWorld-VLAは将来のシーン生成と計画の両方で競争力を発揮する。
論文 参考訳(メタデータ) (2026-05-11T12:01:13Z) - Uni-World VLA: Interleaved World Modeling and Planning for Autonomous Driving [52.04950569530877]
我々は、将来のフレーム予測と軌道計画の密接なインターリーブを行う統合視覚言語行動モデルUni-World VLAを提案する。
提案手法は,高忠実度将来のフレーム予測を行いながら,競合する閉ループ計画性能を実現する。
論文 参考訳(メタデータ) (2026-03-28T14:39:51Z) - The Trinity of Consistency as a Defining Principle for General World Models [106.16462830681452]
一般世界モデルは、客観的物理法則を学習し、シミュレートし、推論することができる。
本稿では,一般世界モデルに必要な基本的特性を定義するための理論的枠組みを提案する。
我々の研究は、現在のシステムの限界と将来の進歩のためのアーキテクチャ要件の両方を明確にし、一般的な世界モデルへの原則的な経路を確立します。
論文 参考訳(メタデータ) (2026-02-26T16:15:55Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - Isolating and Leveraging Controllable and Noncontrollable Visual
Dynamics in World Models [65.97707691164558]
Iso-DreamはDream-to-Controlフレームワークを2つの側面で改善する。
まず、逆動力学を最適化することにより、世界モデルに制御可能で制御不能な情報源を学習させることを奨励する。
第2に、エージェントの挙動を世界モデルの切り離された潜在的想像力に最適化する。
論文 参考訳(メタデータ) (2022-05-27T08:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。