論文の概要: UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2604.02190v1
- Date: Thu, 02 Apr 2026 15:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.898612
- Title: UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving
- Title(参考訳): UniDriveVLA: 自動運転の理解、認識、行動計画の統合
- Authors: Yongkang Li, Lijun Zhou, Sixu Yan, Bencheng Liao, Tianyi Yan, Kaixin Xiong, Long Chen, Hongwei Xie, Bing Wang, Guang Chen, Hangjun Ye, Wenyu Liu, Haiyang Sun, Xinggang Wang,
- Abstract要約: 自動運転のためのUnified Driving Vision-Language-ActionモデルであるUniDriveVLAを提案する。
理解、シーン認識、行動計画の3つの専門家で構成されており、マスク付き共同注意を通して調整されている。
nuScenesのオープンループ評価とBench2Driveのクローズループ評価における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 48.461267171124945
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action (VLA) models have recently emerged in autonomous driving, with the promise of leveraging rich world knowledge to improve the cognitive capabilities of driving systems. However, adapting such models for driving tasks currently faces a critical dilemma between spatial perception and semantic reasoning. Consequently, existing VLA systems are forced into suboptimal compromises: directly adopting 2D Vision-Language Models yields limited spatial perception, whereas enhancing them with 3D spatial representations often impairs the native reasoning capacity of VLMs. We argue that this dilemma largely stems from the coupled optimization of spatial perception and semantic reasoning within shared model parameters. To overcome this, we propose UniDriveVLA, a Unified Driving Vision-Language-Action model based on Mixture-of-Transformers that addresses the perception-reasoning conflict via expert decoupling. Specifically, it comprises three experts for driving understanding, scene perception, and action planning, which are coordinated through masked joint attention. In addition, we combine a sparse perception paradigm with a three-stage progressive training strategy to improve spatial perception while maintaining semantic reasoning capability. Extensive experiments show that UniDriveVLA achieves state-of-the-art performance in open-loop evaluation on nuScenes and closed-loop evaluation on Bench2Drive. Moreover, it demonstrates strong performance across a broad range of perception, prediction, and understanding tasks, including 3D detection, online mapping, motion forecasting, and driving-oriented VQA, highlighting its broad applicability as a unified model for autonomous driving. Code and model have been released at https://github.com/xiaomi-research/unidrivevla
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは最近、運転システムの認知能力を改善するために、豊かな世界の知識を活用することを約束して、自動運転に登場した。
しかし、現在、タスクの駆動にそのようなモデルを適用することは、空間的知覚と意味論的推論の間に重要なジレンマに直面している。
その結果、既存のVLAシステムは、直接的に2次元視覚ランゲージモデルを採用することで、空間知覚が制限される一方で、3次元空間表現でそれらを強化することで、VLMのネイティブな推論能力が損なわれる。
このジレンマは主に、共有モデルパラメータ内の空間知覚と意味的推論の協調最適化に起因していると我々は主張する。
そこで本研究では,Unixture-of-TransformerをベースとしたUniDriveVLAを提案する。
具体的には,3人の専門家による理解,情景認識,行動計画が,マスク付き共同注意を通して調整されている。
さらに,スパース認知パラダイムと3段階のプログレッシブトレーニング戦略を組み合わせることで,意味論的推論能力を維持しながら空間的知覚を改善する。
広汎な実験により,UniDriveVLA は nuScenes のオープンループ評価と Bench2Drive のクローズループ評価において最先端の性能を達成した。
さらに、3D検出、オンラインマッピング、モーション予測、運転指向VQAなど、幅広い知覚、予測、理解タスクにまたがる高いパフォーマンスを示し、自動運転の統一モデルとしての幅広い適用性を強調している。
コードとモデルはhttps://github.com/xiaomi-research/unidrivevlaでリリースされた。
関連論文リスト
- SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - Spatial-aware Vision Language Model for Autonomous Driving [16.149511148218497]
VLM(Vision-Language Models)は、言語モデルに埋め込まれた共通感覚を活用することで、エンドツーエンドの自動運転に重要な可能性を示している。
現在の画像ベース手法は、正確な空間的推論と幾何学的推論に苦しむため、信頼性の低い運転ポリシーが導かれる。
LVLDriveは、自律運転のための堅牢な3次元空間理解により既存のVLMをアップグレードするように設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2025-12-30T16:35:00Z) - Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving [48.512353531499286]
本稿では,視覚言語モデル(VLM)に2D/3Dシーン理解能力を暗黙的に統合した知覚強調世界認識行動モデルPercept-WAMを紹介する。
我々は,高密度物体知覚のためのグリッド条件付き予測機構を提案し,IoU対応スコアリングと並列自己回帰デコードを導入し,長距離・遠距離・小対象シナリオの安定性を向上させる。
実験により、パーセプションWAMは下流の知覚ベンチマークで古典的な検出器やセグメンタと一致し、2D検出とBEV 3D検出で51.7/58.9 mAPを達成した。
論文 参考訳(メタデータ) (2025-11-24T15:28:25Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model [24.90085777003393]
エンド・ツー・エンドの自動運転用に設計されたビジョン・ランゲージ・アクション(VLA)モデルであるOpenDriveVLAを提案する。
OpenDriveVLAは、オープンソースのトレーニング済みの大型ビジョンランゲージモデル(VLM)上に構築され、信頼性の高い駆動アクションを生成する。
論文 参考訳(メタデータ) (2025-03-30T14:45:54Z) - Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning [24.511628941825116]
我々は,人間ライクな駆動チェーン(CoT)推論フレームワークであるSce2DriveXを紹介した。
人間の運転に固有の暗黙の認知連鎖を再構築し、シーン理解、メタアクション推論、行動解釈分析、行動計画および制御をカバーしている。
CARLA Bench2Driveベンチマークでは、シーン理解からエンドツーエンドの駆動まで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-02-19T09:50:44Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。