論文の概要: DriveXQA: Cross-modal Visual Question Answering for Adverse Driving Scene Understanding
- arxiv url: http://arxiv.org/abs/2603.11380v1
- Date: Wed, 11 Mar 2026 23:49:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.715933
- Title: DriveXQA: Cross-modal Visual Question Answering for Adverse Driving Scene Understanding
- Title(参考訳): DriveXQA: 逆運転シーン理解のためのクロスモーダル視覚質問応答
- Authors: Mingzhe Tao, Ruiping Liu, Junwei Zheng, Yufan Chen, Kedi Ying, M. Saquib Sarfraz, Kailun Yang, Jiaming Zhang, Rainer Stiefelhagen,
- Abstract要約: 本稿では,自動運転VQAのためのマルチモーダルデータセットであるDriveXQAを提案する。
4つの視覚的モード、5つのセンサー障害、5つの気象条件に加えて、グローバルシーンレベル、アロセントリックレベル、エゴ車中心レベルという3つのタイプに分類される10,505ドルのQAペアを含む。
本稿では,DCAプロジェクタを備えたトークン効率の高いMVX-LLMを設計し,情報冗長性を緩和する。
- 参考スコア(独自算出の注目度): 40.93547456625219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fusing sensors with complementary modalities is crucial for maintaining a stable and comprehensive understanding of abnormal driving scenes. However, Multimodal Large Language Models (MLLMs) are underexplored for leveraging multi-sensor information to understand adverse driving scenarios in autonomous vehicles. To address this gap, we propose the DriveXQA, a multimodal dataset for autonomous driving VQA. In addition to four visual modalities, five sensor failure cases, and five weather conditions, it includes $102,505$ QA pairs categorized into three types: global scene level, allocentric level, and ego-vehicle centric level. Since no existing MLLM framework adopts multiple complementary visual modalities as input, we design MVX-LLM, a token-efficient architecture with a Dual Cross-Attention (DCA) projector that fuses the modalities to alleviate information redundancy. Experiments demonstrate that our DCA achieves improved performance under challenging conditions such as foggy (GPTScore: $53.5$ vs. $25.1$ for the baseline). The established dataset and source code will be made publicly available.
- Abstract(参考訳): 相補的なモードでセンサを融合させることは、異常運転シーンの安定的で包括的な理解を維持する上で重要である。
しかし、マルチモーダル大言語モデル(MLLM)は、自動運転車の悪運転シナリオを理解するために、マルチセンサ情報を活用するために過小評価されている。
このギャップに対処するため,自動運転VQAのためのマルチモーダルデータセットであるDriveXQAを提案する。
4つの視覚的モード、5つのセンサー障害、5つの気象条件に加えて、グローバルシーンレベル、アロセントリックレベル、エゴ車中心レベルという3つのタイプに分類される10,505ドルのQAペアを含む。
既存のMLLMフレームワークでは複数の相補的な視覚的モダリティを入力として採用していないため、情報冗長性を軽減するためにモダリティを融合したDCAプロジェクタを備えたトークン効率の高いアーキテクチャであるMVX-LLMを設計する。
実験の結果,DCAはフォグギー(GPTScore: 53.5$ vs. 25.1$ for the baseline)のような難易度条件下での性能向上を実現していることがわかった。
確立されたデータセットとソースコードが公開されている。
関連論文リスト
- MMDrive: Interactive Scene Understanding Beyond Vision with Multi-representational Fusion [39.303609347179695]
本研究では,従来の画像理解を一般化した3Dシーン理解フレームワークに拡張した視覚言語モデルフレームワークMMDriveを提案する。
MMDriveには、占有マップ、LiDAR点雲、テキストシーン記述を含む3つの補完的なモードが組み込まれている。
MMDriveは、既存の自動運転用ビジョン言語モデルよりも大きなパフォーマンス向上を実現しており、BLEU-4スコアは54.56、METEORスコアは41.78、精度スコアは62.7%である。
論文 参考訳(メタデータ) (2025-12-15T10:37:59Z) - RoboDriveVLM: A Novel Benchmark and Baseline towards Robust Vision-Language Models for Autonomous Driving [45.00491493068162]
現在のビジョンランゲージモデル(VLM)ベースのエンドツーエンド自動運転システムは、大きな言語モデルを利用して駆動決定を生成することが多い。
このベンチマークは、VLMベースのエンドツーエンド自動運転システムにおいて、現実的な課題の2つの重要なカテゴリを体系的に評価する。
我々は,よりマルチモーダルなデータ,例えばライダーやレーダを統合潜在空間にマッピングすることで,ロボドライブVLMと呼ばれる新しいVLMベースの自律走行フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-01T05:44:06Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments [62.5830455357187]
我々は3種類のセンサー(Camera, LiDAR, Fisheye)をベースとした自我中心型マルチセンサデータ収集プラットフォームを構築した。
大規模なマルチモーダルデータセットであるRoboSenseは、エゴセントリックなロボット知覚を促進するために構築されている。
論文 参考訳(メタデータ) (2024-08-28T03:17:40Z) - Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。
従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文 参考訳(メタデータ) (2024-03-28T21:18:33Z) - M2DA: Multi-Modal Fusion Transformer Incorporating Driver Attention for Autonomous Driving [11.36165122994834]
自律運転にドライバ注意(M2DA)を組み込んだ多モード核融合トランスを提案する。
ドライバーの注意を取り入れることで、自動運転車に人間のようなシーン理解能力を付与し、重要な領域を正確に特定し、安全性を確保する。
論文 参考訳(メタデータ) (2024-03-19T08:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。