論文の概要: ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2601.19582v1
- Date: Tue, 27 Jan 2026 13:17:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.326569
- Title: ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving
- Title(参考訳): ScenePilot-Bench: 自律運転における視覚言語モデル評価のための大規模データセットとベンチマーク
- Authors: Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Daxin Tian, Bingzhao Gao, Jianqiang Wang, Hong Chen,
- Abstract要約: ScenePilot-Benchは、視覚言語モデル(VLM)を自律運転シナリオで評価するために設計された、大規模な一人称運転ベンチマークである。
ScenePilot-Benchは3,847時間の運転ビデオからなる多様なデータセットであるScenePilot-4K上に構築されている。
このベンチマークは、シーン理解、空間認識、モーションプランニング、GPTスコアにおけるVLM機能を評価する4軸評価スイートを備えている。
- 参考スコア(独自算出の注目度): 28.813620963608198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce ScenePilot-Bench, a large-scale first-person driving benchmark designed to evaluate vision-language models (VLMs) in autonomous driving scenarios. ScenePilot-Bench is built upon ScenePilot-4K, a diverse dataset comprising 3,847 hours of driving videos, annotated with multi-granularity information including scene descriptions, risk assessments, key participant identification, ego trajectories, and camera parameters. The benchmark features a four-axis evaluation suite that assesses VLM capabilities in scene understanding, spatial perception, motion planning, and GPT-Score, with safety-aware metrics and cross-region generalization settings. We benchmark representative VLMs on ScenePilot-Bench, providing empirical analyses that clarify current performance boundaries and identify gaps for driving-oriented reasoning. ScenePilot-Bench offers a comprehensive framework for evaluating and advancing VLMs in safety-critical autonomous driving contexts.
- Abstract(参考訳): 本稿では,自律運転シナリオにおける視覚言語モデル(VLM)の評価を目的とした大規模一対一運転ベンチマークであるScenePilot-Benchを紹介する。
ScenePilot-Benchは3,847時間のドライビングビデオからなる多様なデータセットであるScenePilot-4K上に構築されている。
このベンチマークは、シーン理解、空間認識、モーションプランニング、GPTスコアにおけるVLM機能を評価する4軸評価スイートと、安全に配慮したメトリクスとクロスリージョンの一般化設定を備えている。
我々は、ScenePilot-BenchのVLMをベンチマークし、現在の性能境界を明確にし、運転指向推論のギャップを識別する実験分析を行った。
ScenePilot-Benchは、安全クリティカルな自動運転コンテキストでVLMを評価し、前進させるための包括的なフレームワークを提供する。
関連論文リスト
- SOVABench: A Vehicle Surveillance Action Retrieval Benchmark for Multimodal Large Language Models [43.77182813030722]
我々は,車両関連行動を中心とした監視映像から構築した実世界検索ベンチマークであるSOVABenchを紹介する。
SOVABenchは、2つの評価プロトコル(ペア内とペア内)を定義し、相互行為の識別と時間方向の理解を評価する。
本稿では,MLLMによる画像とビデオの両方の記述から解釈可能な埋め込みを生成するための学習自由フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-08T10:58:59Z) - iFinder: Structured Zero-Shot Vision-Based LLM Grounding for Dash-Cam Video Reasoning [51.15353027471834]
iFinderは、ダッシュカムのビデオを大規模な言語モデルのための階層的で解釈可能なデータ構造に変換するセマンティックグラウンドディングフレームワークである。
iFinderはトレーニング不要のパイプラインとして動作し、トレーニング済みの視覚モデルを使用して重要な手がかりを抽出する。
これは、4つのゼロショット駆動ベンチマークにおいて、エンドツーエンドのV-VLMよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-09-23T20:25:53Z) - STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving [16.602141801221364]
STSBenchは、自律運転のための視覚言語モデル(VLM)の総合的な理解をベンチマークするためのフレームワークである。
このベンチマークでは、複数のビューにまたがる43の多様なシナリオが特徴で、その結果、971人の人間による検証された複数選択の質問が生まれている。
徹底的な評価により、複雑な環境における基本的なトラフィックダイナミクスを推論する既存のモデルの能力の欠点が明らかになる。
論文 参考訳(メタデータ) (2025-06-06T16:25:22Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Are Vision LLMs Road-Ready? A Comprehensive Benchmark for Safety-Critical Driving Video Understanding [10.242043337117005]
視覚大言語モデル(VLLM)は、画像キャプションや視覚的質問応答といった一般的な視覚的タスクにおいて、印象的な機能を示している。
しかし、自律運転のような専門的で安全に重要な分野におけるその効果は、まだ明らかにされていない。
DVBenchは、安全クリティカルな運転映像の理解において、VLLMの性能を評価するために設計された先駆的なベンチマークである。
論文 参考訳(メタデータ) (2025-04-20T07:50:44Z) - NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models [11.184459657989914]
シーン理解のためのマルチビュー・マルチモーダル評価ベンチマークであるNuPlanQA-Evalを紹介する。
また,NuPlanQA-1Mは,実世界の視覚的質問応答(VQA)ペア100万個からなる大規模データセットである。
評価の結果,エゴ中心の視点から,既存のMLLMがシーン特有の知覚と空間的推論を駆動する上で直面する重要な課題が明らかになった。
論文 参考訳(メタデータ) (2025-03-17T03:12:39Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - DeepAccident: A Motion and Accident Prediction Benchmark for V2X
Autonomous Driving [76.29141888408265]
本研究では,現実の運転において頻繁に発生する多様な事故シナリオを含む大規模データセットを提案する。
提案したDeepAccidentデータセットには57Kの注釈付きフレームと285Kの注釈付きサンプルが含まれており、これは大規模なnuScenesデータセットの約7倍である。
論文 参考訳(メタデータ) (2023-04-03T17:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。