論文の概要: VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2602.20794v1
- Date: Tue, 24 Feb 2026 11:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.72744
- Title: VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving
- Title(参考訳): VGGDrive: 自律運転のためのクロスビュー幾何学的グラウンドリングを用いたビジョンランゲージモデル
- Authors: Jie Wang, Guang Li, Zhijian Huang, Chenxu Dang, Hangjun Ye, Yahong Han, Long Chen,
- Abstract要約: 自律運転のためのクロスビュー3D幾何モデリング能力は自明であるが、既存のビジョンランゲージモデルには本質的にこの能力がない。
本稿では,視覚言語モデルに自律走行のための幾何学的グラウンドリングを用いた新しいアーキテクチャ,VGGDriveを提案する。
- 参考スコア(独自算出の注目度): 26.557803260279258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The significance of cross-view 3D geometric modeling capabilities for autonomous driving is self-evident, yet existing Vision-Language Models (VLMs) inherently lack this capability, resulting in their mediocre performance. While some promising approaches attempt to mitigate this by constructing Q&A data for auxiliary training, they still fail to fundamentally equip VLMs with the ability to comprehensively handle diverse evaluation protocols. We thus chart a new course, advocating for the infusion of VLMs with the cross-view geometric grounding of mature 3D foundation models, closing this critical capability gap in autonomous driving. In this spirit, we propose a novel architecture, VGGDrive, which empowers Vision-language models with cross-view Geometric Grounding for autonomous Driving. Concretely, to bridge the cross-view 3D geometric features from the frozen visual 3D model with the VLM's 2D visual features, we introduce a plug-and-play Cross-View 3D Geometric Enabler (CVGE). The CVGE decouples the base VLM architecture and effectively empowers the VLM with 3D features through a hierarchical adaptive injection mechanism. Extensive experiments show that VGGDrive enhances base VLM performance across five autonomous driving benchmarks, including tasks like cross-view risk perception, motion prediction, and trajectory planning. It's our belief that mature 3D foundation models can empower autonomous driving tasks through effective integration, and we hope our initial exploration demonstrates the potential of this paradigm to the autonomous driving community.
- Abstract(参考訳): 自律運転におけるクロスビュー3次元幾何モデリング能力の重要性は自明であるが、既存のビジョン・ランゲージ・モデル(VLM)は本質的にこの能力を欠いている。
いくつかの有望なアプローチは、補助訓練のためのQ&Aデータを構築することでこれを緩和しようとするが、VLMに様々な評価プロトコルを包括的に扱う能力を持たせることに失敗している。
そこで我々は、成熟した3次元基礎モデルの幾何的接地によるVLMの注入を提唱し、自動運転におけるこの重要な能力ギャップを埋める新たなコースを図った。
本稿では,視覚言語モデルに自律運転のための幾何学的グラウンドを交互に活用する新しいアーキテクチャ,VGGDriveを提案する。
具体的には,凍結した視覚的3次元モデルからVLMの2次元視覚的特徴をブリッジするために,Cross-View 3D Geometric Enabler (CVGE) をプラグアンドプレイで導入する。
CVGEは基本VLMアーキテクチャを分離し、階層的適応注入機構を通じて3D特徴を持つVLMを効果的に強化する。
大規模な実験により、VGGDriveは、クロスビューリスク認識、モーション予測、軌道計画などのタスクを含む、5つの自律運転ベンチマークにおけるベースVLMパフォーマンスを向上させることが示されている。
成熟した3Dファウンデーションモデルは、効果的な統合を通じて自律運転タスクを増強できるという考えです。
関連論文リスト
- Visual Implicit Geometry Transformer for Autonomous Driving [7.795200422563638]
自律走行幾何学モデルである視覚インプリシット幾何変換器(ViGT)を導入する。
ViGTは、ドメイン固有の要件に対処する鳥眼ビュー(BEV)において、連続した3D占有領域を推定する。
5つの大規模自律走行データセットを混合してモデルをトレーニングすることで、我々のアプローチのスケーラビリティと一般化性を検証する。
論文 参考訳(メタデータ) (2026-02-05T11:54:38Z) - Spatial-aware Vision Language Model for Autonomous Driving [16.149511148218497]
VLM(Vision-Language Models)は、言語モデルに埋め込まれた共通感覚を活用することで、エンドツーエンドの自動運転に重要な可能性を示している。
現在の画像ベース手法は、正確な空間的推論と幾何学的推論に苦しむため、信頼性の低い運転ポリシーが導かれる。
LVLDriveは、自律運転のための堅牢な3次元空間理解により既存のVLMをアップグレードするように設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2025-12-30T16:35:00Z) - D3D-VLP: Dynamic 3D Vision-Language-Planning Model for Embodied Grounding and Navigation [66.7166217399105]
エージェントは、エンドツーエンドモデルには解釈可能性や明示的な3D推論が欠けているという、重要なジレンマに直面します。
1) 計画,グラウンド,ナビゲーション,質問応答を単一の3D-VLMパイプラインとCoTパイプラインで統一する動的3Dチェーン(3D CoT) ; 2) フラグメンテッド・スーパービジョン(SLFS)戦略からのシナジスティック学習 マスク付き自己回帰損失を用いて,大規模かつ部分的に注釈付けされたハイブリッドデータから学習する。
論文 参考訳(メタデータ) (2025-12-14T09:53:15Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving [25.03216574230919]
VQA-Diff(VQA-Diff)は、車載画像を活用し、自動運転車のための3D車両資産を作成する新しいフレームワークである。
VQA-Diffは、VQA(Visual Question Answering)モデルにおけるLarge Language Modelから受け継いだ実世界の知識を利用して、堅牢なゼロショット予測を行う。
我々はPascal 3D+を含む様々なデータセットの実験を行い、VQA-Diffが既存の最先端手法よりも質的かつ定量的に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-09T03:09:55Z) - Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? [66.6886931183372]
我々は,LDMと1層線形プロジェクタを接続する3Dトークン化器として,DETR方式の3Dパーセプトロンを導入する。
その単純さにもかかわらず、Atlasは3D検出とエゴ計画の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-28T16:57:44Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。