論文の概要: Evaluating Small Vision-Language Models on Distance-Dependent Traffic Perception
- arxiv url: http://arxiv.org/abs/2510.08352v1
- Date: Thu, 09 Oct 2025 15:38:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.169229
- Title: Evaluating Small Vision-Language Models on Distance-Dependent Traffic Perception
- Title(参考訳): 距離依存型交通知覚における最小視線モデルの評価
- Authors: Nikos Theodoridis, Tim Brophy, Reenu Mohandas, Ganesh Sistu, Fiachra Collins, Anthony Scanlan, Ciaran Eising,
- Abstract要約: 本稿では,DTPQA(Distance-Annotated Traffic Perception Question Answering)ベンチマークを紹介する。
最初のVisual Question Answering (VQA)ベンチマークは、トラフィックシーンにおける知覚に基づく質問のみに焦点を当てたものだ。
DTPQA上では、いくつかの最先端(SOTA)小型ビジョンランゲージモデル(VLM)を評価する。
- 参考スコア(独自算出の注目度): 0.7644902597398215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are becoming increasingly powerful, demonstrating strong performance on a variety of tasks that require both visual and textual understanding. Their strong generalisation abilities make them a promising component for automated driving systems, which must handle unexpected corner cases. However, to be trusted in such safety-critical applications, a model must first possess a reliable perception system. Moreover, since critical objects and agents in traffic scenes are often at a distance, we require systems that are not "shortsighted", i.e., systems with strong perception capabilities at both close (up to 20 meters) and long (30+ meters) range. With this in mind, we introduce Distance-Annotated Traffic Perception Question Answering (DTPQA), the first Visual Question Answering (VQA) benchmark focused solely on perception-based questions in traffic scenes, enriched with distance annotations. By excluding questions that require reasoning, we ensure that model performance reflects perception capabilities alone. Since automated driving hardware has limited processing power and cannot support large VLMs, our study centers on smaller VLMs. More specifically, we evaluate several state-of-the-art (SOTA) small VLMs on DTPQA and show that, despite the simplicity of the questions, these models significantly underperform compared to humans (~60% average accuracy for the best-performing small VLM versus ~85% human performance). However, it is important to note that the human sample size was relatively small, which imposes statistical limitations. We also identify specific perception tasks, such as distinguishing left from right, that remain particularly challenging for these models.
- Abstract(参考訳): VLM(Vision-Language Models)はますます強力になり、視覚的およびテキスト的理解を必要とする様々なタスクにおいて強力なパフォーマンスを示す。
その強力な一般化能力は、自動走行システムにとって有望なコンポーネントとなり、予期せぬコーナーケースに対処する必要がある。
しかし、そのような安全クリティカルな応用を信頼するには、まずモデルに信頼性のある認識システムを持たなければならない。
さらに、交通現場における重要な物体やエージェントは、しばしば距離が離れているため、近距離(20メートル以上)と長距離(30メートル以上)の両方で強い知覚能力を持つシステムに「近視」しないシステムが必要である。
このことを念頭に置いて、距離アノテーションに富んだ交通シーンにおける知覚に基づく質問に焦点をあてた最初のビジュアル質問回答(VQA)ベンチマークであるDTPQA(Distance-Annotated Traffic Perception Question Answering)を紹介する。
推論を必要とする質問を除外することで、モデルの性能が知覚能力のみを反映することを保証します。
自動駆動ハードウェアは処理能力が限られており,大規模なVLMをサポートできないため,本研究はより小型のVLMに重点を置いている。
より具体的には、DTPQA上でのSOTA(State-of-the-art)の小型VLMを評価し、質問の単純さにもかかわらず、これらのモデルは人間に比べて著しく性能が劣っていることを示す。
しかし、ヒトの標本サイズは比較的小さく、統計的に制限されていることに注意する必要がある。
また、左と右を区別するような特定の知覚タスクも、これらのモデルでは特に困難なままである。
関連論文リスト
- Are VLMs Ready for Lane Topology Awareness in Autonomous Driving? [17.325365876089602]
VLM(Vision-Language Models)は、最近、マルチモーダル推論において顕著な進歩を示したが、自動運転におけるその応用は限定的である。
本研究では,道路トポロジ理解におけるVLMの能力を体系的に評価する。
論文 参考訳(メタデータ) (2025-09-20T12:02:39Z) - BetterCheck: Towards Safeguarding VLMs for Automotive Perception Systems [1.701722696403793]
大規模言語モデル(LLM)は、テキストやビデオなどのマルチモーダルデータを同時に処理するように拡張されている。
制限されていない場合、LLMとビジョン言語モデル(VLM)は複雑な交通状況を記述するのに優れた性能を示す。
VLMは幻覚を起こす傾向があり、これは、ある状況にある交通エージェントを見ていない可能性や、実際には存在しない交通エージェントを見ることを意味する。
論文 参考訳(メタデータ) (2025-07-23T17:32:17Z) - Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。