論文の概要: MMDrive: Interactive Scene Understanding Beyond Vision with Multi-representational Fusion
- arxiv url: http://arxiv.org/abs/2512.13177v2
- Date: Tue, 16 Dec 2025 05:50:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 14:48:05.967376
- Title: MMDrive: Interactive Scene Understanding Beyond Vision with Multi-representational Fusion
- Title(参考訳): MMDrive:多表現融合による視覚を超えたインタラクティブなシーン理解
- Authors: Minghui Hou, Wei-Hsing Huang, Shaofeng Liang, Daizong Liu, Tai-Hao Wen, Gang Wang, Runwei Guan, Weiping Ding,
- Abstract要約: 本研究では,従来の画像理解を一般化した3Dシーン理解フレームワークに拡張した視覚言語モデルフレームワークMMDriveを提案する。
MMDriveには、占有マップ、LiDAR点雲、テキストシーン記述を含む3つの補完的なモードが組み込まれている。
MMDriveは、既存の自動運転用ビジョン言語モデルよりも大きなパフォーマンス向上を実現しており、BLEU-4スコアは54.56、METEORスコアは41.78、精度スコアは62.7%である。
- 参考スコア(独自算出の注目度): 39.303609347179695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models enable the understanding and reasoning of complex traffic scenarios through multi-source information fusion, establishing it as a core technology for autonomous driving. However, existing vision-language models are constrained by the image understanding paradigm in 2D plane, which restricts their capability to perceive 3D spatial information and perform deep semantic fusion, resulting in suboptimal performance in complex autonomous driving environments. This study proposes MMDrive, an multimodal vision-language model framework that extends traditional image understanding to a generalized 3D scene understanding framework. MMDrive incorporates three complementary modalities, including occupancy maps, LiDAR point clouds, and textual scene descriptions. To this end, it introduces two novel components for adaptive cross-modal fusion and key information extraction. Specifically, the Text-oriented Multimodal Modulator dynamically weights the contributions of each modality based on the semantic cues in the question, guiding context-aware feature integration. The Cross-Modal Abstractor employs learnable abstract tokens to generate compact, cross-modal summaries that highlight key regions and essential semantics. Comprehensive evaluations on the DriveLM and NuScenes-QA benchmarks demonstrate that MMDrive achieves significant performance gains over existing vision-language models for autonomous driving, with a BLEU-4 score of 54.56 and METEOR of 41.78 on DriveLM, and an accuracy score of 62.7% on NuScenes-QA. MMDrive effectively breaks the traditional image-only understanding barrier, enabling robust multimodal reasoning in complex driving environments and providing a new foundation for interpretable autonomous driving scene understanding.
- Abstract(参考訳): ビジョン言語モデルは、マルチソース情報融合による複雑な交通シナリオの理解と推論を可能にし、自動運転のコア技術として確立する。
しかし、既存の視覚言語モデルは、2次元平面における画像理解パラダイムによって制約され、3次元空間情報を知覚し、深いセマンティックフュージョンを実行する能力を制限することで、複雑な自律運転環境において、最適以下の性能をもたらす。
本研究では,従来の画像理解を一般化した3Dシーン理解フレームワークに拡張したマルチモーダル視覚言語モデルフレームワークMMDriveを提案する。
MMDriveには、占有地図、LiDAR点雲、テキストシーン記述を含む3つの補完的なモードが組み込まれている。
この目的のために、適応的なクロスモーダル融合とキー情報抽出のための2つの新しいコンポーネントを導入している。
具体的には、テキスト指向のマルチモーダル・モジュレータは、各モーダルのコントリビューションを動的に重み付け、コンテキスト認識機能統合を導く。
Cross-Modal Abstractorは学習可能な抽象トークンを使用して、重要な領域と本質的な意味を強調するコンパクトでクロスモーダルな要約を生成する。
DriveLMとNuScenes-QAのベンチマークに関する総合的な評価は、MMDriveが既存の自動運転のビジョン言語モデルよりも大きなパフォーマンス向上を達成し、BLEU-4スコアは54.56、METEORは41.78、精度は62.7%であることを示している。
MMDriveは、画像のみの理解障壁を効果的に破り、複雑な運転環境における堅牢なマルチモーダル推論を可能にし、解釈可能な自動運転シーン理解のための新しい基盤を提供する。
関連論文リスト
- LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - V3LMA: Visual 3D-enhanced Language Model for Autonomous Driving [2.3302708486956454]
本稿では,LVLMとLLM(Large Language Models)を統合することで,3次元シーン理解を向上させる新しいアプローチであるV3LMAを紹介する。
V3LMAは、オブジェクト検出やビデオ入力から生成されたテキスト記述を活用し、微調整を必要とせずに性能を大幅に向上させる。
本稿では,複雑な交通シナリオにおける状況認識と意思決定を改善し,LingoQAベンチマークのスコア0.56を達成している。
論文 参考訳(メタデータ) (2025-04-30T20:00:37Z) - VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion [8.738991730715039]
VLM-E2Eは、視覚言語モデルを用いて、注意喚起手段を提供することでトレーニングを強化する新しいフレームワークである。
注意の意味論に焦点を当てることで、VLM-E2Eは人間のような運転行動と整合し、ダイナミックで複雑な環境をナビゲートするのに重要である。
我々は、nuScenesデータセット上でVLM-E2Eを評価し、ベースラインのエンドツーエンドモデルに対する認識、予測、計画の大幅な改善を実現した。
論文 参考訳(メタデータ) (2025-02-25T10:02:12Z) - Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [55.609997552148826]
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、限られたドメインデータで駆動関連表現をキャプチャすることで視覚表現を豊かにする。
大規模な実験により、HoPフレームワークの有効性が確認され、すべての主要な指標において、従来の最先端メソッドよりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。