論文の概要: DRIVESPATIAL: A Benchmark for Spatiotemporal Intelligence in VLMs for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.23176v1
- Date: Fri, 22 May 2026 02:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.170255
- Title: DRIVESPATIAL: A Benchmark for Spatiotemporal Intelligence in VLMs for Autonomous Driving
- Title(参考訳): DRIVESPATIAL:自律運転用VLMにおける時空間知能のベンチマーク
- Authors: Hao Vo, Khoa Vo, Phu Loc Nguyen, Sieu Tran, Duc Minh Nguyen, Ngo Xuan Cuong, Gladys Gawugah, Sreevenkata Anjani Tishita Godavarthi, Chase Rainwater, Nghi D. Q. Bui, Anh Nguyen, Duy Minh Ho Nguyen, Ngan Le,
- Abstract要約: DriveSpatialは、5つの大規模自律運転データセットから20タスクにわたる15.6Kの検証済みQAペアのベンチマークである。
以前のベンチマークとは異なり、DriveSpatialはオブジェクトの状態、空間的関係、インタラクション、カメラの可視性、時間的対応をエンコードする動的多言語シーングラフから生成される。
最強のモデルは人間を28.4ポイント追尾し、認知シーン構築が重要なボトルネックとなる。
- 参考スコア(独自算出の注目度): 15.87281823665284
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spatiotemporal intelligence in autonomous driving (AD) requires an agent to integrate multi-view observations into a coherent scene representation, maintain object continuity across viewpoints and time, and reason about spatial relations, interactions, and future dynamics. However, existing AD vision-language benchmarks largely focus on single-view, static, ego-centric, or single-source question answering, leaving it unclear whether current Vision-Language Models (VLMs) can truly construct and reason over dynamic driving scenes. We introduce DriveSpatial, a benchmark of 15.6K human-verified QA pairs across 20 tasks from five large-scale AD datasets. DriveSpatial evaluates four abilities: Cognitive Scene Construction, Multi-view Relational Understanding, Temporal Reasoning, and Generalization. Unlike prior benchmarks, DriveSpatial is generated from a dynamic multi-relational scene graph that encodes object states, spatial relations, interactions, camera visibility, and temporal correspondences, enabling QA pairs that enforce genuine cross-view and spatiotemporal reasoning. Evaluating 15 representative VLMs reveals a substantial human-model gap: the strongest model trails humans by 28.4 points, with Cognitive Scene Construction emerging as the key bottleneck. Further diagnostics show that language-only prompting is insufficient, while explicit BEV grounding consistently improves performance. These results suggest that current VLMs lack the scene-construction ability needed for reliable spatiotemporal driving intelligence. DriveSpatial and its construction pipeline will be released to support future research.
- Abstract(参考訳): 自律運転(AD)における時空間知能は、エージェントが複数の視点の観察をコヒーレントなシーン表現に統合し、視点と時間にわたってオブジェクトの連続性を維持し、空間的関係、相互作用、将来のダイナミクスについて推論することを要求する。
しかし、既存のADビジョン言語ベンチマークは、主にシングルビュー、静的、エゴ中心、またはシングルソースの質問応答に焦点を当てており、現在のビジョン言語モデル(VLM)が動的運転シーンを真に構築し、推論できるかどうかは不明である。
DriveSpatialは、5つの大規模ADデータセットから20タスクにわたる15.6Kの人間検証QAペアのベンチマークである。
DriveSpatialは認知場面構築、多視点関係理解、時間的推論、一般化の4つの能力を評価する。
以前のベンチマークとは異なり、DriveSpatialはオブジェクトの状態、空間関係、相互作用、カメラの可視性、時間対応をエンコードする動的マルチリレーショナルなシーングラフから生成される。
最強のモデルが28.4ポイント、認知シーン構築が重要なボトルネックとなっている。
さらなる診断は、言語のみのプロンプトが不十分であることを示しているが、明示的なBEVグラウンドリングは、一貫して性能を向上する。
これらの結果から,現在のVLMは時空間駆動インテリジェンスに必要なシーンコンストラクション能力が欠如していることが示唆された。
DriveSpatialとその建設パイプラインは、将来の研究をサポートするためにリリースされる。
関連論文リスト
- MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving [54.57163800903507]
我々は、自動運転のための最初の統合ストリーミングVLAアーキテクチャであるMindVLA-U1を紹介する。
統一されたVLMバックボーンは、1つの共有表現に1つのフォワードパスでAR言語トークンとフローマッチングされた連続的なアクショントラジェクトリを生成する。
ロングテールのWOD-E2Eベンチマークでは、MindVLA-U1が経験豊富な人間のドライバーを初めて上回った。
論文 参考訳(メタデータ) (2026-05-12T18:09:42Z) - LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning [51.969318585152116]
LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。
そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。
R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
論文 参考訳(メタデータ) (2026-03-31T02:21:59Z) - STRIDE-QA: Visual Question Answering Dataset for Spatiotemporal Reasoning in Urban Driving Scenes [5.685235562999083]
STRIDE-QAは、都市運転における時間的推論のための視覚的質問応答データセットとして最大である。
空間的局所化と時間的予測を通じて、オブジェクト中心とエゴ中心の推論の両方をサポートする。
我々のベンチマークでは、既存のVLM(Vision-Language Models)が予測一貫性のほぼゼロのスコアを得るのに苦労していることが示されている。
論文 参考訳(メタデータ) (2025-08-14T07:57:06Z) - VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving [16.602141801221364]
STSBenchは、自律運転のための視覚言語モデル(VLM)の総合的な理解をベンチマークするためのフレームワークである。
このベンチマークでは、複数のビューにまたがる43の多様なシナリオが特徴で、その結果、971人の人間による検証された複数選択の質問が生まれている。
徹底的な評価により、複雑な環境における基本的なトラフィックダイナミクスを推論する既存のモデルの能力の欠点が明らかになる。
論文 参考訳(メタデータ) (2025-06-06T16:25:22Z) - Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。
本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。
我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文 参考訳(メタデータ) (2025-05-09T20:28:17Z) - NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving [10.41584658117874]
自律運転における視覚言語モデル(VLM)の空間的理解と推論能力を評価するために設計された,第1の大規模地下構造に基づく質問応答(QA)ベンチマークであるNuScenes-SpatialQAを提案する。
NuScenesデータセットに基づいて構築されたこのベンチマークは、自動化された3Dシーングラフ生成パイプラインとQA生成パイプラインによって構築される。
このベンチマークを用いて、汎用モデルと空間拡張モデルの両方を含む多様なVLMに関する広範な実験を行い、自律運転における空間能力を総合的に評価した。
論文 参考訳(メタデータ) (2025-04-04T04:43:10Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。