論文の概要: STRIDE-QA: Visual Question Answering Dataset for Spatiotemporal Reasoning in Urban Driving Scenes
- arxiv url: http://arxiv.org/abs/2508.10427v1
- Date: Thu, 14 Aug 2025 07:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.222775
- Title: STRIDE-QA: Visual Question Answering Dataset for Spatiotemporal Reasoning in Urban Driving Scenes
- Title(参考訳): STRIDE-QA: 都市運転場面における時空間推論のための視覚的質問応答データセット
- Authors: Keishi Ishihara, Kento Sasaki, Tsubasa Takahashi, Daiki Shiono, Yu Yamaguchi,
- Abstract要約: STRIDE-QAは、都市運転における時間的推論のための視覚的質問応答データセットとして最大である。
空間的局所化と時間的予測を通じて、オブジェクト中心とエゴ中心の推論の両方をサポートする。
我々のベンチマークでは、既存のVLM(Vision-Language Models)が予測一貫性のほぼゼロのスコアを得るのに苦労していることが示されている。
- 参考スコア(独自算出の注目度): 2.49327588299521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have been applied to autonomous driving to support decision-making in complex real-world scenarios. However, their training on static, web-sourced image-text pairs fundamentally limits the precise spatiotemporal reasoning required to understand and predict dynamic traffic scenes. We address this critical gap with STRIDE-QA, a large-scale visual question answering (VQA) dataset for physically grounded reasoning from an ego-centric perspective. Constructed from 100 hours of multi-sensor driving data in Tokyo, capturing diverse and challenging conditions, STRIDE-QA is the largest VQA dataset for spatiotemporal reasoning in urban driving, offering 16 million QA pairs over 285K frames. Grounded by dense, automatically generated annotations including 3D bounding boxes, segmentation masks, and multi-object tracks, the dataset uniquely supports both object-centric and ego-centric reasoning through three novel QA tasks that require spatial localization and temporal prediction. Our benchmarks demonstrate that existing VLMs struggle significantly, achieving near-zero scores on prediction consistency. In contrast, VLMs fine-tuned on STRIDE-QA exhibit dramatic performance gains, achieving 55% success in spatial localization and 28% consistency in future motion prediction, compared to near-zero scores from general-purpose VLMs. Therefore, STRIDE-QA establishes a comprehensive foundation for developing more reliable VLMs for safety-critical autonomous systems.
- Abstract(参考訳): VLM(Vision-Language Models)は、複雑な現実世界のシナリオにおける意思決定を支援する自動運転に応用されている。
しかし、静的なWebソースの画像テキストペアによるトレーニングは、動的トラフィックシーンを理解し予測するのに必要な正確な時空間推論を根本的に制限する。
我々は、この重要なギャップを、エゴ中心の視点から物理的に根拠付けられた推論のための大規模視覚的質問応答(VQA)データセットSTRIDE-QAで解決する。
STRIDE-QAは、東京の100時間にわたるマルチセンサー駆動データから構築され、多様かつ困難な状況を捉え、285Kフレームで1600万QAペアを提供する都市運転における時空間推論のための最大VQAデータセットである。
3Dバウンディングボックス、セグメンテーションマスク、マルチオブジェクトトラックを含む、密集した自動生成アノテーションにより、データセットは空間的局所化と時間的予測を必要とする3つの新しいQAタスクを通じて、オブジェクト中心とエゴ中心の推論の両方をユニークにサポートしている。
我々のベンチマークでは、既存のVLMは、予測整合性においてほぼゼロに近いスコアを得るのに、かなり苦労していることが示されています。
対照的に、STRIDE-QAを微調整したVLMは、一般的なVLMのほぼゼロスコアと比較して、空間的局所化で55%成功し、将来の動き予測で28%の一貫性を達成し、劇的な性能向上を示した。
そのため、STRIDE-QAは安全クリティカルな自律システムのためのより信頼性の高いVLMを開発するための総合的な基盤を確立している。
関連論文リスト
- Box-QAymo: Box-Referring VQA Dataset for Autonomous Driving [27.39309272688527]
解釈可能なコミュニケーションは安全で信頼性の高い自動運転に不可欠である。
現在の視覚言語モデル(VLM)は、しばしば理想化された仮定の下で動作し、現実世界のシナリオにおけるユーザの意図を捉えるのに苦労する。
Box-QAymoは、ユーザの指定したオブジェクトに対する空間的および時間的推論において、堅牢性と微妙なVLMを評価するために設計された、ボックス参照データセットとベンチマークである。
論文 参考訳(メタデータ) (2025-07-01T07:40:16Z) - STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving [16.602141801221364]
STSBenchは、自律運転のための視覚言語モデル(VLM)の総合的な理解をベンチマークするためのフレームワークである。
このベンチマークでは、複数のビューにまたがる43の多様なシナリオが特徴で、その結果、971人の人間による検証された複数選択の質問が生まれている。
徹底的な評価により、複雑な環境における基本的なトラフィックダイナミクスを推論する既存のモデルの能力の欠点が明らかになる。
論文 参考訳(メタデータ) (2025-06-06T16:25:22Z) - Out of Sight, Not Out of Context? Egocentric Spatial Reasoning in VLMs Across Disjoint Frames [17.975173937253494]
エゴセントリックなビデオを操作するAIアシスタントは、時間をかけて空間的な手がかりを統合する必要がある。
Disjoint-3DQAは、VLMのこの能力を評価するためのQAベンチマークである。
論文 参考訳(メタデータ) (2025-05-30T06:32:26Z) - NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving [10.41584658117874]
自律運転における視覚言語モデル(VLM)の空間的理解と推論能力を評価するために設計された,第1の大規模地下構造に基づく質問応答(QA)ベンチマークであるNuScenes-SpatialQAを提案する。
NuScenesデータセットに基づいて構築されたこのベンチマークは、自動化された3Dシーングラフ生成パイプラインとQA生成パイプラインによって構築される。
このベンチマークを用いて、汎用モデルと空間拡張モデルの両方を含む多様なVLMに関する広範な実験を行い、自律運転における空間能力を総合的に評価した。
論文 参考訳(メタデータ) (2025-04-04T04:43:10Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments [62.5830455357187]
我々は3種類のセンサー(Camera, LiDAR, Fisheye)をベースとした自我中心型マルチセンサデータ収集プラットフォームを構築した。
大規模なマルチモーダルデータセットであるRoboSenseは、エゴセントリックなロボット知覚を促進するために構築されている。
論文 参考訳(メタデータ) (2024-08-28T03:17:40Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。