論文の概要: RoadSceneVQA: Benchmarking Visual Question Answering in Roadside Perception Systems for Intelligent Transportation System
- arxiv url: http://arxiv.org/abs/2511.18286v1
- Date: Sun, 23 Nov 2025 04:40:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.746644
- Title: RoadSceneVQA: Benchmarking Visual Question Answering in Roadside Perception Systems for Intelligent Transportation System
- Title(参考訳): RoadSceneVQA:知的交通システムのための道路側知覚システムにおける視覚的質問応答のベンチマーク
- Authors: Runwei Guan, Rongsheng Hu, Shangshu Chen, Ningyuan Xiao, Xue Xia, Jiayang Liu, Beibei Chen, Ziren Tang, Ningwei Ouyang, Shaofeng Liang, Yuxuan Fan, Wanjie Sun, Yutao Yue,
- Abstract要約: RoadSceneVQAは、ロードサイドシナリオに特化した、大規模な視覚的質問応答データセットである。
データセットは、様々な天候、照明、交通条件の下で収集された34,736種類のQAペアで構成されている。
RoadSceneVQAは、明示的な認識と暗黙的な常識推論の両方を実行するモデルに挑戦する。
- 参考スコア(独自算出の注目度): 15.222742182076459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current roadside perception systems mainly focus on instance-level perception, which fall short in enabling interaction via natural language and reasoning about traffic behaviors in context. To bridge this gap, we introduce RoadSceneVQA, a large-scale and richly annotated visual question answering (VQA) dataset specifically tailored for roadside scenarios. The dataset comprises 34,736 diverse QA pairs collected under varying weather, illumination, and traffic conditions, targeting not only object attributes but also the intent, legality, and interaction patterns of traffic participants. RoadSceneVQA challenges models to perform both explicit recognition and implicit commonsense reasoning, grounded in real-world traffic rules and contextual dependencies. To fully exploit the reasoning potential of Multi-modal Large Language Models (MLLMs), we further propose CogniAnchor Fusion (CAF), a vision-language fusion module inspired by human-like scene anchoring mechanisms. Moreover, we propose the Assisted Decoupled Chain-of-Thought (AD-CoT) to enhance the reasoned thinking via CoT prompting and multi-task learning. Based on the above, we propose the baseline model RoadMind. Experiments on RoadSceneVQA and CODA-LM benchmark show that the pipeline consistently improves both reasoning accuracy and computational efficiency, allowing the MLLM to achieve state-of-the-art performance in structural traffic perception and reasoning tasks.
- Abstract(参考訳): 現在の道路側の認識システムは、主にインスタンスレベルの認識に焦点を当てており、自然言語による対話や、コンテキストにおける交通行動の推論では不十分である。
このギャップを埋めるために、ロードサイドシナリオに特化した大規模かつ豊富な注釈付き視覚質問応答(VQA)データセットであるRoadSceneVQAを紹介した。
データセットは、さまざまな天候、照明、交通条件の下で収集された34,736種類のQAペアで構成され、オブジェクト属性だけでなく、トラフィック参加者の意図、合法性、相互作用パターンもターゲットとしている。
RoadSceneVQAは、現実のトラフィックルールとコンテキスト依存に基づいて、明示的な認識と暗黙的なコモンセンス推論の両方を実行するモデルに挑戦する。
MLLM(Multi-modal Large Language Models)の推論能力をフル活用するために,人間のようなシーンアンカー機構にインスパイアされた視覚言語融合モジュールであるCogniAnchor Fusion (CAF)を提案する。
さらに,CoTプロンプトとマルチタスク学習による推論思考を強化するために,Assisted Decoupled Chain-of-Thought (AD-CoT)を提案する。
そこで本研究では,ベースラインモデルであるRoadMindを提案する。
RoadSceneVQAとCODA-LMベンチマークの実験により、パイプラインは推論精度と計算効率の両方を一貫して改善し、MLLMは構造的トラフィック知覚と推論タスクにおける最先端のパフォーマンスを達成できることを示した。
関連論文リスト
- Traffic-MLLM: A Spatio-Temporal MLLM with Retrieval-Augmented Generation for Causal Inference in Traffic [8.754321713184483]
本稿では,詳細なトラフィック解析に適した多モーダル大規模言語モデルであるTraffic-LMを提案する。
我々のモデルは、高品質な交通特化マルチモーダルデータセットを活用し、軽量な微調整にLowRanktemporal Adaptation (LoRA) を用いる。
また、検索ロッドジェネレーション(LoRAG)による最先端推論を融合した革新的な知識モジュールも導入する。
論文 参考訳(メタデータ) (2025-09-14T08:53:06Z) - DriveQA: Passing the Driving Knowledge Test [13.569275971952154]
交通規制やシナリオを網羅的にカバーする,広範なオープンソーステキストおよびビジョンベースのベンチマークであるDriveQAを紹介する。
現状のLLMとMultimodal LLM(Multimodal LLMs)は,基本的トラフィックルールではよく機能するが,数値的推論や複雑な右側シナリオでは大きな弱点があることを示す。
また、モデルがテキストおよび合成トラフィック知識を内部化し、下流QAタスクを効果的に一般化できることを実証する。
論文 参考訳(メタデータ) (2025-08-29T17:59:53Z) - Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [55.609997552148826]
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、限られたドメインデータで駆動関連表現をキャプチャすることで視覚表現を豊かにする。
大規模な実験により、HoPフレームワークの有効性が確認され、すべての主要な指標において、従来の最先端メソッドよりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - SEPT: Towards Efficient Scene Representation Learning for Motion
Prediction [19.111948522155004]
本稿では,自己教師付き学習を活用し,複雑な交通シーンのための強力なモデルを開発するためのモデリングフレームワークSEPTを提案する。
実験により、SEPTはアーキテクチャ設計や機能エンジニアリングを伴わず、Argoverse 1 と Argoverse 2 のモーション予測ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2023-09-26T21:56:03Z) - A Study of Situational Reasoning for Traffic Understanding [63.45021731775964]
トラフィック領域における状況推論のための3つの新しいテキストベースのタスクを考案する。
先行作業における言語推論タスクにまたがる一般化能力を示す知識強化手法を4つ採用する。
本稿では,データ分割におけるモデル性能の詳細な解析を行い,モデル予測を分類的に検討する。
論文 参考訳(メタデータ) (2023-06-05T01:01:12Z) - Utilizing Background Knowledge for Robust Reasoning over Traffic
Situations [63.45021731775964]
我々は、インテリジェントトランスポーテーションの補完的な研究側面である交通理解に焦点を当てる。
本研究は,豊富なコモンセンス知識を前提として,テキストベースの手法とデータセットを対象とする。
交通状況に対するゼロショットQAには3つの知識駆動アプローチを採用しています。
論文 参考訳(メタデータ) (2022-12-04T09:17:24Z) - TrafficQA: A Question Answering Benchmark and an Efficient Network for
Video Reasoning over Traffic Events [13.46045177335564]
収集した10,080本のビデオと62,535本のqaペアに基づく,新たなデータセットtrafficqa(traffic question answering)を作成しました。
複雑で実用的であるさまざまな交通イベントに対する推論能力を評価するために, さまざまな交通シナリオに対応する6つの難しい推論タスクを提案する。
また,計算効率が高く,信頼性の高いビデオ推論を実現するために,動的推論による新しい視覚ネットワークであるEclipseを提案する。
論文 参考訳(メタデータ) (2021-03-29T12:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。