論文の概要: Hierarchical Question-Answering for Driving Scene Understanding Using Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.02615v1
- Date: Tue, 03 Jun 2025 08:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.402661
- Title: Hierarchical Question-Answering for Driving Scene Understanding Using Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いた運転場面理解のための階層的質問応答
- Authors: Safaa Abdullahi Moallim Mohamud, Minjin Baek, Dong Seog Han,
- Abstract要約: 本稿では,自律走行車におけるシーン理解のための階層的質問応答(QA)手法を提案する。
本手法は、車両が走行する地理的領域に特化したカスタムデータセット上で、キー駆動関連視覚要素を捕捉する小型視覚言語モデル(VLM)を微調整する。
我々は,GPT参照なしスコアリングを用いたカスタムデータセットに対する提案手法の評価を行い,最先端手法との競合性を実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a hierarchical question-answering (QA) approach for scene understanding in autonomous vehicles, balancing cost-efficiency with detailed visual interpretation. The method fine-tunes a compact vision-language model (VLM) on a custom dataset specific to the geographical area in which the vehicle operates to capture key driving-related visual elements. At the inference stage, the hierarchical QA strategy decomposes the scene understanding task into high-level and detailed sub-questions. Instead of generating lengthy descriptions, the VLM navigates a structured question tree, where answering high-level questions (e.g., "Is it possible for the ego vehicle to turn left at the intersection?") triggers more detailed sub-questions (e.g., "Is there a vehicle approaching the intersection from the opposite direction?"). To optimize inference time, questions are dynamically skipped based on previous answers, minimizing computational overhead. The extracted answers are then synthesized using handcrafted templates to ensure coherent, contextually accurate scene descriptions. We evaluate the proposed approach on the custom dataset using GPT reference-free scoring, demonstrating its competitiveness with state-of-the-art methods like GPT-4o in capturing key scene details while achieving significantly lower inference time. Moreover, qualitative results from real-time deployment highlight the proposed approach's capacity to capture key driving elements with minimal latency.
- Abstract(参考訳): 本稿では,自律走行車におけるシーン理解のための階層的質問応答(QA)アプローチを提案する。
本手法は、車両が走行する地理的領域に特化したカスタムデータセット上で、キー駆動関連視覚要素を捕捉する小型視覚言語モデル(VLM)を微調整する。
推論段階では、階層的QA戦略はシーン理解タスクを高レベルかつ詳細なサブクエストに分解する。
長い記述を生成する代わりに、VLMは構造化された質問ツリーをナビゲートし、高レベルな質問に答える(例:「エゴ車が交差点で左折することは可能か?」)。
推論時間を最適化するために、質問は以前の回答に基づいて動的にスキップされ、計算オーバーヘッドを最小化する。
抽出された回答は手作りのテンプレートを使って合成され、コヒーレントで文脈的に正確なシーン記述が保証される。
GPT-4oのような最先端の手法との競合性を実証し,提案手法をGPT参照のないスコアリングで評価した。
さらに、リアルタイムデプロイメントによる質的な結果は、最小レイテンシで主要な駆動要素をキャプチャする、提案されたアプローチの能力を強調している。
関連論文リスト
- Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [65.04643267731122]
一般的なMLLMとCLIPの組み合わせは、駆動固有のシナリオを正確に表現するのに苦労することが多い。
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、視覚的表現が強化され、マルチモーダル推論が強化される。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - SADL: An Effective In-Context Learning Method for Compositional Visual QA [22.0603596548686]
大規模視覚言語モデル(LVLM)は、ビジュアルQAでコンテキスト内学習(ICL)を実行するための新しい機能を提供する。
本稿では,タスクのための新しい視覚言語プロンプトフレームワークであるSADLを紹介する。
論文 参考訳(メタデータ) (2024-07-02T06:41:39Z) - SeFlow: A Self-Supervised Scene Flow Method in Autonomous Driving [18.88208422580103]
連続したLiDARスキャンで各点における3次元運動を予測する。
現在の最先端の手法は、シーンフローネットワークをトレーニングするために注釈付きデータを必要とする。
本研究では,効率的な動的分類を学習に基づくシーンフローパイプラインに統合するSeFlowを提案する。
論文 参考訳(メタデータ) (2024-07-01T18:22:54Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Interpretable End-to-End Driving Model for Implicit Scene Understanding [3.4248756007722987]
暗黙的な高次元シーン特徴を抽出するエンド・ツー・エンドのインプリケート・インプリケート・ドライビング・シーン理解(II-DSU)モデルを提案する。
提案手法は,新しい最先端技術を実現し,運転に関連するよりリッチなシーン情報を具現化したシーン特徴を得ることができる。
論文 参考訳(メタデータ) (2023-08-02T14:43:08Z) - NEAT: Neural Attention Fields for End-to-End Autonomous Driving [59.60483620730437]
本稿では、模倣学習モデルの効率的な推論を可能にする新しい表現であるNEAT(NEural Attention Field)を提案する。
NEATは、Bird's Eye View (BEV) シーン座標の位置をウェイポイントとセマンティクスにマッピングする連続関数である。
有害な環境条件や挑戦的なシナリオを含む新たな評価環境では、NEATはいくつかの強いベースラインを上回り、特権のあるCARLA専門家と同等の運転スコアを達成している。
論文 参考訳(メタデータ) (2021-09-09T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。