論文の概要: DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning
- arxiv url: http://arxiv.org/abs/2512.12799v1
- Date: Sun, 14 Dec 2025 18:45:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.446898
- Title: DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning
- Title(参考訳): DrivePI:一元化自律運転理解・認識・予測・計画のための空間認識型4次元MLLM
- Authors: Zhe Liu, Runhui Huang, Rui Yang, Siming Yan, Zining Wang, Lu Hou, Di Lin, Xiang Bai, Hengshuang Zhao,
- Abstract要約: 本稿では,ビジョン・ランゲージ・アクション統合フレームワークとして機能する空間認識型4次元MLLMであるDrivePIを提案する。
提案手法は,空間的理解,3次元知覚,予測(占有フロー),計画(行動出力)を並列に行う。
MLLMのバックボーンとして0.5BのQwen2.5モデルしか持たず、単一の統一モデルとしてのDrivePIは既存のVLAモデルと特殊VAモデルの両方を上回るか、あるいは超える。
- 参考スコア(独自算出の注目度): 94.62097655403683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although multi-modal large language models (MLLMs) have shown strong capabilities across diverse domains, their application in generating fine-grained 3D perception and prediction outputs in autonomous driving remains underexplored. In this paper, we propose DrivePI, a novel spatial-aware 4D MLLM that serves as a unified Vision-Language-Action (VLA) framework that is also compatible with vision-action (VA) models. Our method jointly performs spatial understanding, 3D perception (i.e., 3D occupancy), prediction (i.e., occupancy flow), and planning (i.e., action outputs) in parallel through end-to-end optimization. To obtain both precise geometric information and rich visual appearance, our approach integrates point clouds, multi-view images, and language instructions within a unified MLLM architecture. We further develop a data engine to generate text-occupancy and text-flow QA pairs for 4D spatial understanding. Remarkably, with only a 0.5B Qwen2.5 model as MLLM backbone, DrivePI as a single unified model matches or exceeds both existing VLA models and specialized VA models. Specifically, compared to VLA models, DrivePI outperforms OpenDriveVLA-7B by 2.5% mean accuracy on nuScenes-QA and reduces collision rate by 70% over ORION (from 0.37% to 0.11%) on nuScenes. Against specialized VA models, DrivePI surpasses FB-OCC by 10.3 RayIoU for 3D occupancy on OpenOcc, reduces the mAVE from 0.591 to 0.509 for occupancy flow on OpenOcc, and achieves 32% lower L2 error than VAD (from 0.72m to 0.49m) for planning on nuScenes. Code will be available at https://github.com/happinesslz/DrivePI
- Abstract(参考訳): MLLM(Multi-modal large language model)は、様々な領域にまたがる強力な能力を示しているが、自律運転における微細な3次元知覚と予測出力の生成への応用は、いまだ未定である。
本稿では,VLA(Vision-Language-Action)フレームワークとして機能する空間認識型4D MLLMのDrivePIを提案する。
提案手法は,空間的理解,3次元知覚(3次元占有),予測(占有フロー),計画(行動出力)をエンドツーエンドの最適化によって並列に行う。
正確な幾何学的情報とリッチな視覚的外観を得るため,MLLMアーキテクチャ内に点雲,多視点画像,言語命令を統合した。
さらに,4次元空間理解のためのテキスト占有とテキストフローQAペアを生成するデータエンジンを開発した。
注目すべきは、 0.5B Qwen2.5 モデルのみ MLLM のバックボーンとして、DrivePI を単一の統一モデルとして使用すると、既存の VLA モデルと特殊VA モデルの両方を上回るか、あるいは超えることである。
具体的には、VLAモデルと比較して、DrivePIはOpenDriveVLA-7Bを2.5%の精度でnuScenes-QAで上回り、nuScenes上でORION(0.37%から0.11%)よりも衝突速度を70%下げる。
特別なVAモデルに対して、DrivePIはFB-OCCを10.3 RayIoUでOpenOcc上の3D占有率で上回り、mAVEをOpenOcc上の占有率で0.591から0.509に減らし、nuScenesの計画においてVAD(0.72mから0.49m)よりも32%低いL2エラーを達成する。
コードはhttps://github.com/happinesslz/DrivePIで入手できる。
関連論文リスト
- D3D-VLP: Dynamic 3D Vision-Language-Planning Model for Embodied Grounding and Navigation [66.7166217399105]
エージェントは、エンドツーエンドモデルには解釈可能性や明示的な3D推論が欠けているという、重要なジレンマに直面します。
1) 計画,グラウンド,ナビゲーション,質問応答を単一の3D-VLMパイプラインとCoTパイプラインで統一する動的3Dチェーン(3D CoT) ; 2) フラグメンテッド・スーパービジョン(SLFS)戦略からのシナジスティック学習 マスク付き自己回帰損失を用いて,大規模かつ部分的に注釈付けされたハイブリッドデータから学習する。
論文 参考訳(メタデータ) (2025-12-14T09:53:15Z) - AndesVL Technical Report: An Efficient Mobile-side Multimodal Large Language Model [40.488271586857884]
AndesVLはQwen3のLLMと様々なビジュアルエンコーダに基づいて0.6Bから4Bのパラメータを持つモバイル側のMLLMのスイートである。
効率的なタスク適応とモデル圧縮を容易にするために,Quantization-Aware LoRA Fine-Tuningフレームワークとともに1+N LoRAアーキテクチャを導入する。
我々は、MediaTek Dimensity 9500チップにAndesVL-4Bをデプロイする際に、最大6.7倍のピーク復号率、最大30.9%のメモリ削減、1.8ビット/ウェイトを実現した。
論文 参考訳(メタデータ) (2025-10-13T15:04:38Z) - PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models [20.256394783857676]
PiSA-Engineは、3次元空間意味論に富んだ命令ポイント言語データセットを生成するためのフレームワークである。
PiSA-Benchは6つの重要な側面を網羅した総合的な3Dベンチマークである。
ゼロショット3Dオブジェクトキャプションと生成分類におけるPointLLM-PiSAの最先端性能を示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-03-13T16:37:26Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。