論文の概要: Descriptor: Distance-Annotated Traffic Perception Question Answering (DTPQA)
- arxiv url: http://arxiv.org/abs/2511.13397v1
- Date: Mon, 17 Nov 2025 14:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.29007
- Title: Descriptor: Distance-Annotated Traffic Perception Question Answering (DTPQA)
- Title(参考訳): Descriptor:DTPQA (Distance-Annotated Traffic Perception Question Answering)
- Authors: Nikos Theodoridis, Tim Brophy, Reenu Mohandas, Ganesh Sistu, Fiachra Collins, Anthony Scanlan, Ciaran Eising,
- Abstract要約: Distance-Annotated Traffic Perception Question Answering (DTPQA) は、この目的で設計されたビジュアル質問回答(VQA)ベンチマークである。
交通シナリオにおける視覚言語モデル(VLM)の認識システムの評価には、意思決定に関係のある自明で重要な質問を用いることができる。
シミュレータを使って合成ベンチマーク(DTP-Synthetic)と、実際の交通シーンの既存のイメージの上に構築された実世界のベンチマーク(DTP-Real)の2つの部分で構成されている。
- 参考スコア(独自算出の注目度): 0.7644902597398215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remarkable progress of Vision-Language Models (VLMs) on a variety of tasks has raised interest in their application to automated driving. However, for these models to be trusted in such a safety-critical domain, they must first possess robust perception capabilities, i.e., they must be capable of understanding a traffic scene, which can often be highly complex, with many things happening simultaneously. Moreover, since critical objects and agents in traffic scenes are often at long distances, we require systems with not only strong perception capabilities at close distances (up to 20 meters), but also at long (30+ meters) range. Therefore, it is important to evaluate the perception capabilities of these models in isolation from other skills like reasoning or advanced world knowledge. Distance-Annotated Traffic Perception Question Answering (DTPQA) is a Visual Question Answering (VQA) benchmark designed specifically for this purpose: it can be used to evaluate the perception systems of VLMs in traffic scenarios using trivial yet crucial questions relevant to driving decisions. It consists of two parts: a synthetic benchmark (DTP-Synthetic) created using a simulator, and a real-world benchmark (DTP-Real) built on top of existing images of real traffic scenes. Additionally, DTPQA includes distance annotations, i.e., how far the object in question is from the camera. More specifically, each DTPQA sample consists of (at least): (a) an image, (b) a question, (c) the ground truth answer, and (d) the distance of the object in question, enabling analysis of how VLM performance degrades with increasing object distance. In this article, we provide the dataset itself along with the Python scripts used to create it, which can be used to generate additional data of the same kind.
- Abstract(参考訳): 様々なタスクにおける視覚言語モデル(VLM)の顕著な進歩は、自動運転への応用への関心を高めている。
しかし、これらのモデルがそのような安全クリティカルな領域で信頼されるためには、まずは堅牢な認識能力を持たなければならない。
また,交通現場において重要な物体やエージェントが長距離に現れることが多いため,近距離(最大20m)だけでなく,長距離(30m以上)にも強い知覚能力を持つシステムが必要である。
したがって、推論や先進世界の知識といった他のスキルとは独立して、これらのモデルの知覚能力を評価することが重要である。
Distance-Annotated Traffic Perception Question Answering (DTPQA) は、VQA(Visual Question Answering)ベンチマークであり、交通シナリオにおけるVLMの認識システムの評価に利用することができる。
シミュレータを使って合成ベンチマーク(DTP-Synthetic)と、実際の交通シーンの既存のイメージの上に構築された実世界のベンチマーク(DTP-Real)の2つの部分で構成されている。
さらに、DTPQAは距離アノテーション、すなわち被写体がカメラからどのくらいの距離にあるかを含む。
具体的には、各DTPQAサンプルは(少なくとも):
a) イメージ; イメージ
a) 質問; 質問; 質問
(c) 根拠となる真実の答え、そして
(d) 被写体の距離は, 被写体距離の増加とともにVLM性能が劣化するかを解析できる。
この記事では、データセット自体と、それを作成するために使用されるPythonスクリプトを提供します。
関連論文リスト
- Evaluating Small Vision-Language Models on Distance-Dependent Traffic Perception [0.7644902597398215]
本稿では,DTPQA(Distance-Annotated Traffic Perception Question Answering)ベンチマークを紹介する。
最初のVisual Question Answering (VQA)ベンチマークは、トラフィックシーンにおける知覚に基づく質問のみに焦点を当てたものだ。
DTPQA上では、いくつかの最先端(SOTA)小型ビジョンランゲージモデル(VLM)を評価する。
論文 参考訳(メタデータ) (2025-10-09T15:38:41Z) - DriveQA: Passing the Driving Knowledge Test [13.569275971952154]
交通規制やシナリオを網羅的にカバーする,広範なオープンソーステキストおよびビジョンベースのベンチマークであるDriveQAを紹介する。
現状のLLMとMultimodal LLM(Multimodal LLMs)は,基本的トラフィックルールではよく機能するが,数値的推論や複雑な右側シナリオでは大きな弱点があることを示す。
また、モデルがテキストおよび合成トラフィック知識を内部化し、下流QAタスクを効果的に一般化できることを実証する。
論文 参考訳(メタデータ) (2025-08-29T17:59:53Z) - Box-QAymo: Box-Referring VQA Dataset for Autonomous Driving [27.39309272688527]
解釈可能なコミュニケーションは安全で信頼性の高い自動運転に不可欠である。
現在の視覚言語モデル(VLM)は、しばしば理想化された仮定の下で動作し、現実世界のシナリオにおけるユーザの意図を捉えるのに苦労する。
Box-QAymoは、ユーザの指定したオブジェクトに対する空間的および時間的推論において、堅牢性と微妙なVLMを評価するために設計された、ボックス参照データセットとベンチマークである。
論文 参考訳(メタデータ) (2025-07-01T07:40:16Z) - STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving [16.602141801221364]
STSBenchは、自律運転のための視覚言語モデル(VLM)の総合的な理解をベンチマークするためのフレームワークである。
このベンチマークでは、複数のビューにまたがる43の多様なシナリオが特徴で、その結果、971人の人間による検証された複数選択の質問が生まれている。
徹底的な評価により、複雑な環境における基本的なトラフィックダイナミクスを推論する既存のモデルの能力の欠点が明らかになる。
論文 参考訳(メタデータ) (2025-06-06T16:25:22Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - Eyes on the Road: State-of-the-Art Video Question Answering Models Assessment for Traffic Monitoring Tasks [0.0]
本研究では、非ベンチマーク合成および実世界のトラフィックシーケンスを用いて、最先端のビデオQAモデルの評価を行う。
VideoLLaMA-2は57%の精度で進行する。
これらの知見は、トラフィック監視におけるVideoQAの可能性を裏付けるだけでなく、多目的追跡、時間的推論、合成機能の改善の必要性も強調している。
論文 参考訳(メタデータ) (2024-12-02T05:15:32Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - Utilizing Background Knowledge for Robust Reasoning over Traffic
Situations [63.45021731775964]
我々は、インテリジェントトランスポーテーションの補完的な研究側面である交通理解に焦点を当てる。
本研究は,豊富なコモンセンス知識を前提として,テキストベースの手法とデータセットを対象とする。
交通状況に対するゼロショットQAには3つの知識駆動アプローチを採用しています。
論文 参考訳(メタデータ) (2022-12-04T09:17:24Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。