論文の概要: CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.10426v2
- Date: Wed, 13 May 2026 08:01:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.857906
- Title: CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving
- Title(参考訳): CoWorld-VLA: 自律運転のための多機能世界モデルを考える
- Authors: Minqing Huang, Yujiao Xiang, Zihan Liang, Jiajie Huang, Jingqi Wang, Zhi Xu, Feiyang Tan, Hangning Zhou, Mu Yang, Gong Che,
- Abstract要約: CoWorld-VLAは、自動運転のための多専門家の世界推論フレームワークである。
世界表現は行動計画を導くための明確な条件として機能する。
実験によると、CoWorld-VLAは将来のシーン生成と計画の両方で競争力を発揮する。
- 参考スコア(独自算出の注目度): 4.4380564455353975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as a promising paradigm for end-to-end autonomous driving. However, existing reasoning mechanisms still struggle to provide planning-oriented intermediate representations: textual Chain-of-Thought (CoT) fails to preserve continuous spatiotemporal structure, while latent world reasoning remains difficult to use as a direct condition for action generation. In this paper, we propose CoWorld-VLA, a multi-expert world reasoning framework for autonomous driving, where world representations serve as explicit conditions to guide action planning. CoWorld-VLA extracts complementary world information through multi-source supervision and encodes it into expert tokens within the VLA, thereby providing planner-accessible conditioning signals. Specifically, we construct four types of tokens: semantic interaction, geometric structure, dynamic evolution, and ego trajectory tokens, which respectively model interaction intent, spatial structure, future temporal dynamics, and behavioral goals. During action generation, CoWorld-VLA employs a diffusion-based hierarchical multi-expert fusion planner, which is coupled with scene context throughout the joint denoising process to generate continuous ego trajectories. Experiments show that CoWorld-VLA achieves competitive results in both future scene generation and planning on the NAVSIM v1 benchmark, demonstrating strong performance in collision avoidance and trajectory accuracy. Ablation studies further validate the complementarity of expert tokens and their effectiveness as planning conditions for action generation. Code will be available at https://github.com/AFARI-Research/CoWorld-VLA.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、エンドツーエンドの自動運転において有望なパラダイムとして登場した。
しかし、既存の推論メカニズムは、計画指向の中間表現の提供に苦慮している: テキスト・チェーン・オブ・ソート(CoT)は、持続的な時空間構造を維持することができず、潜在世界推論は、アクション生成の直接的な条件としての使用が困難である。
本稿では,自律運転のための多専門的世界推論フレームワークであるCoWorld-VLAを提案する。
CoWorld-VLAは、複数ソースの監視を通じて補完的な世界情報を抽出し、VLA内のエキスパートトークンにエンコードすることで、プランナアクセス可能なコンディショニング信号を提供する。
具体的には、意味的相互作用、幾何学的構造、動的進化、エゴ軌道トークンの4種類のトークンを構築し、それぞれが相互作用意図、空間構造、将来の時間的ダイナミクス、行動目標をモデル化する。
アクション生成の間、CoWorld-VLAは拡散に基づく階層的多専門家融合プランナーを使用し、これは関節の認知過程全体を通してシーンコンテキストと結合して連続的なエゴ軌道を生成する。
実験により、CoWorld-VLAは将来のシーン生成とNAVSIM v1ベンチマークの計画の両方において、衝突回避と軌道精度の強い性能を示す。
アブレーション研究は、専門家トークンの相補性と、アクション生成の計画条件としてのそれらの有効性をさらに検証する。
コードはhttps://github.com/AFARI-Research/CoWorld-VLAで入手できる。
関連論文リスト
- Learning Vision-Language-Action World Models for Autonomous Driving [15.103497388527943]
VLA(Vision-Language-Action)モデルは最近、エンドツーエンドの自動運転において顕著な進歩を遂げている。
VLAモデルは時相力学と世界整合性の明示的なモデリングを欠いていることが多い。
VLA-World(VLA-World)は、予測的想像力と反射的推論を統一する、シンプルで効果的なVLA世界モデルである。
論文 参考訳(メタデータ) (2026-04-10T07:38:05Z) - Uni-World VLA: Interleaved World Modeling and Planning for Autonomous Driving [52.04950569530877]
我々は、将来のフレーム予測と軌道計画の密接なインターリーブを行う統合視覚言語行動モデルUni-World VLAを提案する。
提案手法は,高忠実度将来のフレーム予測を行いながら,競合する閉ループ計画性能を実現する。
論文 参考訳(メタデータ) (2026-03-28T14:39:51Z) - Chain of World: World Model Thinking in Latent Motion [24.24061036481793]
VLA(Vision-Language-Action)モデルはしばしば、視覚力学の基礎となる予測的・時間的・因果的構造を見落としている。
我々は,世界モデルの時間的推論を非絡み合いの潜在動作表現と統合する新しい「世界の連鎖」パラダイムであるCoWVLAを紹介した。
CoWVLAは、既存のワールドモデルおよび潜在アクションアプローチより優れ、適度な計算効率を達成する。
論文 参考訳(メタデータ) (2026-03-03T17:52:06Z) - DriveWorld-VLA: Unified Latent-Space World Modeling with Vision-Language-Action for Autonomous Driving [25.94896726674773]
DriveWorld-VLAは、潜在空間内での世界モデリングと計画を統合する新しいフレームワークである。
機能レベルでは、コントロール可能でアクション条件付きイマジネーションをサポートする。
NAVSIMv1では91.3PDMS、NAVSIMv2では86.8S、nuScenesでは0.163秒の平均衝突速度で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2026-02-06T09:25:48Z) - SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。