Fugu-MT 論文翻訳(概要): How Well Do Vision-Language Models Understand Sequential Driving Scenes? A Sensitivity Study

論文の概要: How Well Do Vision-Language Models Understand Sequential Driving Scenes? A Sensitivity Study

arxiv url: http://arxiv.org/abs/2604.06750v1
Date: Wed, 08 Apr 2026 07:14:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-09 17:30:51.387527
Title: How Well Do Vision-Language Models Understand Sequential Driving Scenes? A Sensitivity Study
Title（参考訳）: 連続運転シーンの視覚・言語モデルについて : 感性調査
Authors: Roberto Brusnicki, Mattia Piccinini, Johannes Betz,
Abstract要約: VENUSSは連続運転シーンにおけるVLM性能の系統的感度解析のためのフレームワークである。ドライビングビデオから時間的シーケンスを抽出し、カスタムカテゴリ間で構造化された評価を生成する。トップモデルでさえ、同じような制約で人間のパフォーマンスにマッチせず、57%の精度しか達成できないことを示す。
参考スコア（独自算出の注目度）: 2.6954666679827137
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language Models (VLMs) are increasingly proposed for autonomous driving tasks, yet their performance on sequential driving scenes remains poorly characterized, particularly regarding how input configurations affect their capabilities. We introduce VENUSS (VLM Evaluation oN Understanding Sequential Scenes), a framework for systematic sensitivity analysis of VLM performance on sequential driving scenes, establishing baselines for future research. Building upon existing datasets, VENUSS extracts temporal sequences from driving videos, and generates structured evaluations across custom categories. By comparing 25+ existing VLMs across 2,600+ scenarios, we reveal how even top models achieve only 57% accuracy, not matching human performance in similar constraints (65%) and exposing significant capability gaps. Our analysis shows that VLMs excel with static object detection but struggle with understanding the vehicle dynamics and temporal relations. VENUSS offers the first systematic sensitivity analysis of VLMs focused on how input image configurations - resolution, frame count, temporal intervals, spatial layouts, and presentation modes - affect performance on sequential driving scenes. Supplementary material available at https://V3NU55.github.io
Abstract（参考訳）: VLM(Vision-Language Models)は、自律走行タスクではますます提案されているが、特に入力構成が機能に与える影響について、シーケンシャルな運転シーンでの動作性能は不十分なままである。 VENUSS(VLM Evaluation oN Understanding Sequential Scenes)は、連続運転シーンにおけるVLM性能の系統的感度解析のためのフレームワークであり、将来の研究のベースラインを確立する。既存のデータセットに基づいて、VENUSSはドライビングビデオから時間シーケンスを抽出し、カスタムカテゴリ間で構造化された評価を生成する。 2600以上のシナリオで25以上の既存のVLMを比較することで、トップモデルでさえ、同じような制約(65%)で人間のパフォーマンスにマッチせず、重要な能力のギャップを顕在化して、わずか57%の精度しか達成していないことを明らかにする。解析の結果,VLMは静的物体検出に優れるが,車両のダイナミクスや時間的関係の理解に苦慮していることがわかった。 VENUSSは、入力画像構成(解像度、フレーム数、時間間隔、空間配置、表示モード)がシーケンシャルな運転シーンのパフォーマンスにどのように影響するかに焦点を当てた、VLMの最初の系統的な感度分析を提供する。追加資料はhttps://V3NU55.github.ioで公開されている。

関連論文リスト

iFinder: Structured Zero-Shot Vision-Based LLM Grounding for Dash-Cam Video Reasoning [51.15353027471834]
iFinderは、ダッシュカムのビデオを大規模な言語モデルのための階層的で解釈可能なデータ構造に変換するセマンティックグラウンドディングフレームワークである。 iFinderはトレーニング不要のパイプラインとして動作し、トレーニング済みの視覚モデルを使用して重要な手がかりを抽出する。これは、4つのゼロショット駆動ベンチマークにおいて、エンドツーエンドのV-VLMよりも大幅に優れている。
論文参考訳（メタデータ） (2025-09-23T20:25:53Z)
STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving [16.602141801221364]
STSBenchは、自律運転のための視覚言語モデル(VLM)の総合的な理解をベンチマークするためのフレームワークである。このベンチマークでは、複数のビューにまたがる43の多様なシナリオが特徴で、その結果、971人の人間による検証された複数選択の質問が生まれている。徹底的な評価により、複雑な環境における基本的なトラフィックダイナミクスを推論する既存のモデルの能力の欠点が明らかになる。
論文参考訳（メタデータ） (2025-06-06T16:25:22Z)
Are Vision LLMs Road-Ready? A Comprehensive Benchmark for Safety-Critical Driving Video Understanding [10.242043337117005]
視覚大言語モデル(VLLM)は、画像キャプションや視覚的質問応答といった一般的な視覚的タスクにおいて、印象的な機能を示している。しかし、自律運転のような専門的で安全に重要な分野におけるその効果は、まだ明らかにされていない。 DVBenchは、安全クリティカルな運転映像の理解において、VLLMの性能を評価するために設計された先駆的なベンチマークである。
論文参考訳（メタデータ） (2025-04-20T07:50:44Z)
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文参考訳（メタデータ） (2025-01-07T18:59:55Z)
LaVida Drive: Vision-Text Interaction VLM for Autonomous Driving with Token Selection, Recovery and Enhancement [4.534832757549232]
本稿では,自律運転のための新しい,効率的なVQAフレームワークであるLaVida Driveを紹介する。 LaVida Driveは、詳細な視覚知覚のための高解像度入力を維持しながら、時間データをシームレスに統合する。複雑な詳細のための高分解能データを保持し、時間解析のために低分解能入力を使用することで空間処理を最適化する。
論文参考訳（メタデータ） (2024-11-20T02:14:07Z)
Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。 GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文参考訳（メタデータ） (2024-05-09T17:52:42Z)
DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文参考訳（メタデータ） (2023-12-21T18:59:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。