論文の概要: UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics
- arxiv url: http://arxiv.org/abs/2602.21137v1
- Date: Tue, 24 Feb 2026 17:33:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.86548
- Title: UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics
- Title(参考訳): UDVideoQA:都市動態におけるマルチオブジェクト時空間推論のための交通ビデオ質問応答データセット
- Authors: Joseph Raj Vishal, Nagasiri Poluri, Katha Naik, Rutuja Patil, Kashyap Hegde Kota, Krishna Vinod, Prithvi Jai Ramesh, Mohammad Farhadi, Yezhou Yang, Bharatesh Chakravarthi,
- Abstract要約: 本稿では,動的な都市景観の非記述的実環境挙動を捉えたベンチマークデータセットであるUrban Dynamics VideoQAを紹介する。
UDVideoQAは、さまざまな交通、天気、照明条件下で複数の交差点で記録された16時間の交通映像から収集される。
データセットには8時間にわたる濃密な注釈付きビデオで生成された28Kの質問応答ペアが含まれており、毎秒平均1質問が作成される。
- 参考スコア(独自算出の注目度): 19.634532810889507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the complex, multi-agent dynamics of urban traffic remains a fundamental challenge for video language models. This paper introduces Urban Dynamics VideoQA, a benchmark dataset that captures the unscripted real-world behavior of dynamic urban scenes. UDVideoQA is curated from 16 hours of traffic footage recorded at multiple city intersections under diverse traffic, weather, and lighting conditions. It employs an event-driven dynamic blur technique to ensure privacy preservation without compromising scene fidelity. Using a unified annotation pipeline, the dataset contains 28K question-answer pairs generated across 8 hours of densely annotated video, averaging one question per second. Its taxonomy follows a hierarchical reasoning level, spanning basic understanding and attribution to event reasoning, reverse reasoning, and counterfactual inference, enabling systematic evaluation of both visual grounding and causal reasoning. Comprehensive experiments benchmark 10 SOTA VideoLMs on UDVideoQA and 8 models on a complementary video question generation benchmark. Results reveal a persistent perception-reasoning gap, showing models that excel in abstract inference often fail with fundamental visual grounding. While models like Gemini Pro achieve the highest zero-shot accuracy, fine-tuning the smaller Qwen2.5-VL 7B model on UDVideoQA bridges this gap, achieving performance comparable to proprietary systems. In VideoQGen, Gemini 2.5 Pro, and Qwen3 Max generate the most relevant and complex questions, though all models exhibit limited linguistic diversity, underscoring the need for human-centric evaluation. The UDVideoQA suite, including the dataset, annotation tools, and benchmarks for both VideoQA and VideoQGen, provides a foundation for advancing robust, privacy-aware, and real-world multimodal reasoning. UDVideoQA is available at https://ud-videoqa.github.io/UD-VideoQA/UD-VideoQA/.
- Abstract(参考訳): 都市交通の複雑でマルチエージェントなダイナミクスを理解することは、ビデオ言語モデルにとって根本的な課題である。
本稿では,動的な都市景観の非記述的実環境挙動を捉えたベンチマークデータセットであるUrban Dynamics VideoQAを紹介する。
UDVideoQAは、さまざまな交通、天気、照明条件下で複数の交差点で記録された16時間の交通映像から収集される。
シーンの忠実さを損なうことなく、プライバシ保護を確保するために、イベント駆動のダイナミックブラー技術を採用している。
統合されたアノテーションパイプラインを使用して、データセットは8時間にわたる高密度な注釈付きビデオで生成される28Kの質問応答ペアを含み、毎秒平均1つの質問が生成される。
その分類は階層的推論のレベルに従い、基本的な理解とイベント推論、リバース推論、そして反ファクト推論にまたがって、視覚的根拠と因果推論の両方の体系的な評価を可能にしている。
UDVideoQAで10個のSOTAビデオフィルムと相補的なビデオ質問生成ベンチマークで8つのモデルを比較した。
結果から,抽象的推論に優れるモデルでは,基本的な視覚的根拠が欠落する傾向がみられた。
Gemini Proのようなモデルはゼロショットの精度が最も高いが、UDVideoQA上の小さなQwen2.5-VL 7Bモデルを微調整することでこのギャップを埋め、プロプライエタリなシステムに匹敵するパフォーマンスを実現している。
VideoQGen、Gemini 2.5 Pro、Qwen3 Maxは最も関連性が高く複雑な質問を生成するが、全てのモデルは言語的な多様性が限られており、人間中心の評価の必要性を強調している。
VideoQAとVideoQGenの両方のデータセット、アノテーションツール、ベンチマークを含むUDVideoQAスイートは、堅牢でプライバシを認識し、現実のマルチモーダル推論を向上するための基盤を提供する。
UDVideoQAはhttps://ud-videoqa.github.io/UD-VideoQA/UD-VideoQA/で利用可能である。
関連論文リスト
- ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。
本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文 参考訳(メタデータ) (2025-07-28T15:52:36Z) - InterAct-Video: Reasoning-Rich Video QA for Urban Traffic [21.849445040376537]
ディープラーニングは、質問応答(VideoQA)モデルを通じて、高度なビデオベースのトラフィック監視を実現する。
既存のVideoQAモデルは、現実世界の交通シーンの複雑さに悩まされている。
InterAct VideoQAは、トラフィック監視タスクのためのVideoQAモデルをベンチマークし、拡張するために設計された、キュレートされたデータセットである。
論文 参考訳(メタデータ) (2025-07-19T20:30:43Z) - Advancing Egocentric Video Question Answering with Multimodal Large Language Models [10.111636068164504]
Egocentric Video Question Answering (QA)は、長期的時間的推論、個人的視点、頻繁なカメラムーブメントのような特殊な課題を扱うモデルを必要とする。
本稿では,QaEgo4Dv2上で,プロプライエタリおよびオープンソースのMultimodal Large Language Models(MLLM)を体系的に評価する。
論文 参考訳(メタデータ) (2025-04-06T16:58:23Z) - Eyes on the Road: State-of-the-Art Video Question Answering Models Assessment for Traffic Monitoring Tasks [0.0]
本研究では、非ベンチマーク合成および実世界のトラフィックシーケンスを用いて、最先端のビデオQAモデルの評価を行う。
VideoLLaMA-2は57%の精度で進行する。
これらの知見は、トラフィック監視におけるVideoQAの可能性を裏付けるだけでなく、多目的追跡、時間的推論、合成機能の改善の必要性も強調している。
論文 参考訳(メタデータ) (2024-12-02T05:15:32Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering [75.01757991135567]
本稿では,動画をエンドツーエンドで処理するDual-Visual Graph Reasoning Unit (DualVGR)を提案する。
我々のDualVGRネットワークは、ベンチマークMSVD-QAおよびSVQAデータセット上で最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-07-10T06:08:15Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。