論文の概要: Robust Driving QA through Metadata-Grounded Context and Task-Specific Prompts
- arxiv url: http://arxiv.org/abs/2510.19001v1
- Date: Tue, 21 Oct 2025 18:24:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.441954
- Title: Robust Driving QA through Metadata-Grounded Context and Task-Specific Prompts
- Title(参考訳): メタデータ付きコンテキストとタスク特異的プロンプトによるロバスト駆動QA
- Authors: Seungjun Yu, Junsung Park, Youngsun Lim, Hyunjung Shim,
- Abstract要約: 本稿では,ハイレベルな認識,予測,計画的疑問に答える自律運転のための視覚言語QAシステムを提案する。
駆動型QAベンチマークの実験では,本手法はベースラインのQwen2.5モデルよりも有意に優れていた。
特に、このシステムは、深刻な視覚的腐敗の下で96%の精度を維持している。
- 参考スコア(独自算出の注目度): 27.64955941993406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a two-phase vision-language QA system for autonomous driving that answers high-level perception, prediction, and planning questions. In Phase-1, a large multimodal LLM (Qwen2.5-VL-32B) is conditioned on six-camera inputs, a short temporal window of history, and a chain-of-thought prompt with few-shot exemplars. A self-consistency ensemble (multiple sampled reasoning chains) further improves answer reliability. In Phase-2, we augment the prompt with nuScenes scene metadata (object annotations, ego-vehicle state, etc.) and category-specific question instructions (separate prompts for perception, prediction, planning tasks). In experiments on a driving QA benchmark, our approach significantly outperforms the baseline Qwen2.5 models. For example, using 5 history frames and 10-shot prompting in Phase-1 yields 65.1% overall accuracy (vs.62.61% with zero-shot); applying self-consistency raises this to 66.85%. Phase-2 achieves 67.37% overall. Notably, the system maintains 96% accuracy under severe visual corruption. These results demonstrate that carefully engineered prompts and contextual grounding can greatly enhance high-level driving QA with pretrained vision-language models.
- Abstract(参考訳): 本稿では,ハイレベルな認識,予測,計画に答える自律運転のための2段階の視覚言語QAシステムを提案する。
フェーズ1では、大きなマルチモーダル LLM (Qwen2.5-VL-32B) が6つのカメラ入力、短い時間的歴史の窓、数発の例によるチェーン・オブ・シークレットに条件付けされている。
自己整合性アンサンブル(複数のサンプル推論チェーン)は回答信頼性をさらに向上させる。
フェーズ2では、nuScenesシーンのメタデータ(アノテーション、ego-vehicle状態など)とカテゴリ固有の質問指示(知覚、予測、計画タスクの別々のプロンプト)でプロンプトを増強する。
駆動型QAベンチマークの実験では,本手法はベースラインのQwen2.5モデルよりも有意に優れていた。
例えば、5つの履歴フレームと10ショットプロンプトを使用することで65.1%の精度(vs.62.61%とゼロショット)が得られる。
第2相は全体の67.37%を達成している。
特に、このシステムは、深刻な視覚的腐敗の下で96%の精度を維持している。
これらの結果は、事前学習された視覚言語モデルを用いて、慎重に設計されたプロンプトと文脈的グラウンド化により、ハイレベルな運転QAを大幅に向上できることを示す。
関連論文リスト
- SAVANT: Semantic Analysis with Vision-Augmented Anomaly deTection [6.806105013817923]
SAVANTは、異常運転シナリオの検出において高精度なリコールを実現する構造化推論フレームワークである。
9,640以上の実世界の画像を高精度にラベル付けすることで、SAVANTは異常検出における重要なデータ不足問題に対処する。
論文 参考訳(メタデータ) (2025-10-20T19:14:29Z) - Task-Specific Dual-Model Framework for Comprehensive Traffic Safety Video Description and Analysis [7.392659193819963]
交通安全分析は複雑な映像理解を必要とし、行動パターンを捉え、事故防止のための記述を生成する。
本稿では,タスク固有の最適化を通じて,VideoLLaMAとQwen2.5-VLの相補的強みを戦略的に活用する,ユニークなデュアルモデルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T20:18:23Z) - Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment [10.701522670464463]
MLLM(Multimodal large language model)は、解釈可能な評価によって視覚的品質を評価する。
冷間開始段階と強化学習に基づく微調整段階からなる統合された2段階訓練枠組みを提案する。
これら2つの段階から派生したモデルをQ-Ponder-CIとQ-Ponderと呼ぶ。
論文 参考訳(メタデータ) (2025-06-03T10:11:51Z) - LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。
このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。
我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文 参考訳(メタデータ) (2025-05-21T15:06:59Z) - AutoDrive-QA: A Multiple-Choice Benchmark for Vision-Language Evaluation in Urban Autonomous Driving [0.7734726150561086]
オープンエンド運転QAを構造化多重選択質問に体系的に変換する最初のベンチマークであるAutoDrive-QAを紹介する。
微調整LLaVA-1.5-7Bはタスク間で約6ポイントの精度向上を実現し、GPT-4Vは最大69.8%の精度で最強のゼロショット性能を実現し、Qwen2-VLモデルも競争力を発揮した。
論文 参考訳(メタデータ) (2025-03-20T01:32:00Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation [64.64849950642619]
テキスト・ツー・イメージ・モデルを評価するための形式的意味論にインスパイアされた評価フレームワークを開発する。
Davidsonian Scene Graph (DSG) が依存性グラフにまとめられた原子的およびユニークな質問を生成することを示す。
また,1060個のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。
論文 参考訳(メタデータ) (2023-10-27T16:20:10Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。