論文の概要: Box-QAymo: Box-Referring VQA Dataset for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2507.00525v1
- Date: Tue, 01 Jul 2025 07:40:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.472635
- Title: Box-QAymo: Box-Referring VQA Dataset for Autonomous Driving
- Title(参考訳): Box-QAymo: 自動運転のためのボックス参照VQAデータセット
- Authors: Djamahl Etchegaray, Yuxia Fu, Zi Huang, Yadan Luo,
- Abstract要約: 解釈可能なコミュニケーションは安全で信頼性の高い自動運転に不可欠である。
現在の視覚言語モデル(VLM)は、しばしば理想化された仮定の下で動作し、現実世界のシナリオにおけるユーザの意図を捉えるのに苦労する。
Box-QAymoは、ユーザの指定したオブジェクトに対する空間的および時間的推論において、堅牢性と微妙なVLMを評価するために設計された、ボックス参照データセットとベンチマークである。
- 参考スコア(独自算出の注目度): 27.39309272688527
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Interpretable communication is essential for safe and trustworthy autonomous driving, yet current vision-language models (VLMs) often operate under idealized assumptions and struggle to capture user intent in real-world scenarios. Existing driving-oriented VQA datasets are limited to full-scene descriptions or waypoint prediction, preventing the assessment of whether VLMs can respond to localized user-driven queries. We introduce Box-QAymo, a box-referring dataset and benchmark designed to both evaluate and finetune VLMs on spatial and temporal reasoning over user-specified objects. Users express intent by drawing bounding boxes, offering a fast and intuitive interface for focused queries in complex scenes. Specifically, we propose a hierarchical evaluation protocol that begins with binary sanity-check questions to assess basic model capacities, and progresses to (1) attribute prediction for box-referred objects, (2) motion understanding of target instances, and (3) spatiotemporal motion reasoning over inter-object dynamics across frames. To support this, we crowd-sourced fine-grained object classes and visual attributes that reflect the complexity drivers encounter, and extract object trajectories to construct temporally grounded QA pairs. Rigorous quality control through negative sampling, temporal consistency checks, and difficulty-aware balancing guarantee dataset robustness and diversity. Our comprehensive evaluation reveals significant limitations in current VLMs when queried about perception questions, highlighting the gap in achieving real-world performance. This work provides a foundation for developing more robust and interpretable autonomous driving systems that can communicate effectively with users under real-world conditions. Project page and dataset are available at https://djamahl99.github.io/qaymo-pages/.
- Abstract(参考訳): 解釈可能なコミュニケーションは安全で信頼性の高い自動運転には不可欠であるが、現在の視覚言語モデル(VLM)は理想化された仮定の下で動作し、現実世界のシナリオにおけるユーザの意図を捉えるのに苦労することが多い。
既存の駆動指向VQAデータセットは、フルシーンの記述やウェイポイント予測に限られており、VLMがローカライズされたユーザ駆動クエリに応答できるかどうかの評価を防止する。
ボックス参照型データセットとベンチマークであるBox-QAymoを導入し,ユーザが指定したオブジェクトに対する空間的および時間的推論に基づいて,VLMの評価と微調整を行う。
ユーザはバウンディングボックスを描画することで意図を表現し、複雑なシーンにおける集中クエリのための高速で直感的なインターフェースを提供する。
具体的には、基本モデル能力を評価するための二項正当性チェック質問から始まる階層的評価プロトコルを提案し、(1)ボックス参照オブジェクトの属性予測、(2)ターゲットインスタンスの動作理解、(3)フレーム間のオブジェクト間ダイナミクスによる時空間的動き推論を行う。
これをサポートするために、我々は、複雑性ドライバの遭遇を反映したきめ細かいオブジェクトクラスと視覚特性をクラウドソーシングし、時間的に基底付けられたQAペアを構築するためにオブジェクトの軌跡を抽出した。
ネガティブサンプリング、時間的整合性チェック、難易度バランスによる厳密な品質管理により、データセットの堅牢性と多様性が保証される。
包括的評価では,現在のVLMにおいて,知覚的質問に対する質問に対して重要な制限が示され,現実のパフォーマンス向上のギャップが浮き彫りにされている。
この研究は、現実世界の状況下でユーザーと効果的にコミュニケーションできる、より堅牢で解釈可能な自動運転システムを開発するための基盤を提供する。
プロジェクトページとデータセットはhttps://djamahl99.github.io/qaymo-pages/.comで公開されている。
関連論文リスト
- STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving [16.602141801221364]
STSBenchは、自律運転のための視覚言語モデル(VLM)の総合的な理解をベンチマークするためのフレームワークである。
このベンチマークでは、複数のビューにまたがる43の多様なシナリオが特徴で、その結果、971人の人間による検証された複数選択の質問が生まれている。
徹底的な評価により、複雑な環境における基本的なトラフィックダイナミクスを推論する既存のモデルの能力の欠点が明らかになる。
論文 参考訳(メタデータ) (2025-06-06T16:25:22Z) - Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting [60.58915701973593]
CAT-V(Caption AnyThing in Video)は、オブジェクト中心のビデオキャプションを微粒化するためのトレーニング不要のフレームワークである。
Cat-Vは3つの重要なコンポーネントを統合している: SAMIに基づくフレーム間の正確なオブジェクトセグメンテーションのためのセグメンタ、TRACE-UniVLを動力とするテンポラルアナライザ、Intern-2.5を使用するキャピタ。
我々のフレームワークは、追加のトレーニングデータを必要とすることなく、オブジェクトの属性、アクション、ステータス、インタラクション、環境コンテキストの詳細な時間的記述を生成します。
論文 参考訳(メタデータ) (2025-04-07T22:35:36Z) - NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving [10.41584658117874]
自律運転における視覚言語モデル(VLM)の空間的理解と推論能力を評価するために設計された,第1の大規模地下構造に基づく質問応答(QA)ベンチマークであるNuScenes-SpatialQAを提案する。
NuScenesデータセットに基づいて構築されたこのベンチマークは、自動化された3Dシーングラフ生成パイプラインとQA生成パイプラインによって構築される。
このベンチマークを用いて、汎用モデルと空間拡張モデルの両方を含む多様なVLMに関する広範な実験を行い、自律運転における空間能力を総合的に評価した。
論文 参考訳(メタデータ) (2025-04-04T04:43:10Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - Embodied Scene Understanding for Vision Language Models via MetaVQA [42.70816811661304]
視覚言語モデル(VLM)は、様々なモビリティアプリケーションにAIエージェントを組み込む可能性を示している。
本稿では,VLMの空間的関係とシーンダイナミクスに対する理解度を評価するための総合的なベンチマークであるMetaVQAを提案する。
実験の結果,MetaVQAデータセットを用いた微調整VLMは,安全クリティカルシミュレーションにおける空間的推論と環境理解を著しく改善することがわかった。
論文 参考訳(メタデータ) (2025-01-15T21:36:19Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - SoDA: Multi-Object Tracking with Soft Data Association [75.39833486073597]
マルチオブジェクトトラッキング(MOT)は、自動運転車の安全な配備の前提条件である。
観測対象間の依存関係をエンコードするトラック埋め込みの計算に注目するMOTに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-18T03:40:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。