論文の概要: InterAct-Video: Reasoning-Rich Video QA for Urban Traffic
- arxiv url: http://arxiv.org/abs/2507.14743v2
- Date: Fri, 08 Aug 2025 05:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 18:31:47.156648
- Title: InterAct-Video: Reasoning-Rich Video QA for Urban Traffic
- Title(参考訳): InterAct-Video: 都市交通のためのビデオQA
- Authors: Joseph Raj Vishal, Rutuja Patil, Manas Srinivas Gowda, Katha Naik, Yezhou Yang, Bharatesh Chakravarthi,
- Abstract要約: ディープラーニングは、質問応答(VideoQA)モデルを通じて、高度なビデオベースのトラフィック監視を実現する。
既存のVideoQAモデルは、現実世界の交通シーンの複雑さに悩まされている。
InterAct VideoQAは、トラフィック監視タスクのためのVideoQAモデルをベンチマークし、拡張するために設計された、キュレートされたデータセットである。
- 参考スコア(独自算出の注目度): 20.537672896807063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traffic monitoring is crucial for urban mobility, road safety, and intelligent transportation systems (ITS). Deep learning has advanced video-based traffic monitoring through video question answering (VideoQA) models, enabling structured insight extraction from traffic videos. However, existing VideoQA models struggle with the complexity of real-world traffic scenes, where multiple concurrent events unfold across spatiotemporal dimensions. To address these challenges, this paper introduces \textbf{InterAct VideoQA}, a curated dataset designed to benchmark and enhance VideoQA models for traffic monitoring tasks. The InterAct VideoQA dataset comprises 8 hours of real-world traffic footage collected from diverse intersections, segmented into 10-second video clips, with over 25,000 question-answer (QA) pairs covering spatiotemporal dynamics, vehicle interactions, incident detection, and other critical traffic attributes. State-of-the-art VideoQA models are evaluated on InterAct VideoQA, exposing challenges in reasoning over fine-grained spatiotemporal dependencies within complex traffic scenarios. Additionally, fine-tuning these models on InterAct VideoQA yields notable performance improvements, demonstrating the necessity of domain-specific datasets for VideoQA. InterAct VideoQA is publicly available as a benchmark dataset to facilitate future research in real-world deployable VideoQA models for intelligent transportation systems. GitHub Repo: https://github.com/joe-rabbit/InterAct_VideoQA
- Abstract(参考訳): 交通監視は都市移動、道路安全、インテリジェント交通システム(ITS)にとって重要である。
ディープラーニングは、ビデオ質問応答(Video QA)モデルを通じて、高度なビデオベースのトラフィック監視を実現し、トラフィックビデオから構造化された洞察抽出を可能にする。
しかし、既存のビデオQAモデルは、時空間にまたがる複数の同時イベントが広がる現実世界の交通シーンの複雑さに苦慮している。
これらの課題に対処するために,交通監視タスクのためのビデオQAモデルのベンチマークと拡張を目的とした,キュレートされたデータセットである‘textbf{InterAct VideoQA} を紹介する。
InterAct VideoQAデータセットは、さまざまな交差点から収集された実世界のトラフィック映像を10秒のビデオクリップに分割し、時空間ダイナミクス、車両のインタラクション、インシデント検出、その他の重要なトラフィック属性をカバーする25,000以上の質問回答(QA)ペアで構成されている。
現状のVideoQAモデルは、InterAct VideoQA上で評価され、複雑なトラフィックシナリオにおける詳細な時空間依存性を推論する上での課題を明らかにする。
さらに、これらのモデルをInterAct VideoQAで微調整することで、ビデオQAのためのドメイン固有のデータセットの必要性を示す、注目すべきパフォーマンスが改善される。
InterAct VideoQAは、インテリジェントトランスポートシステムのための実世界のデプロイ可能なVideoQAモデルにおける将来の研究を促進するためのベンチマークデータセットとして公開されている。
GitHubリポジトリ:https://github.com/joe-rabbit/InterAct_VideoQA
関連論文リスト
- TUMTraffic-VideoQA: A Benchmark for Unified Spatio-Temporal Video Understanding in Traffic Scenes [26.948071735495237]
複雑なトラフィックシナリオを理解するために設計されたデータセットとベンチマークであるTUMTraffic-VideoQAを提案する。
データセットには85,000対の複数選択ペア、2,300のオブジェクトキャプション、5,700のオブジェクトアノテーションが含まれており、悪天候や交通異常などのさまざまな現実世界の状況を含んでいる。
論文 参考訳(メタデータ) (2025-02-04T16:14:40Z) - TimeLogic: A Temporal Logic Benchmark for Video QA [64.32208175236323]
時間的論理的質問を自動的に生成するTimeLogic QA(TLQA)フレームワークを導入する。
私たちはSTAR、Breakfast、AGQA、CrossTaskの4つのデータセットを活用し、カテゴリ毎に2kと10kのQAペアを生成します。
時間的複雑性の異なる16カテゴリの時間論理に対して,ビデオQAモデルの時間的推論性能を評価する。
論文 参考訳(メタデータ) (2025-01-13T11:12:59Z) - Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。
近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。
本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文 参考訳(メタデータ) (2024-12-26T17:53:14Z) - Eyes on the Road: State-of-the-Art Video Question Answering Models Assessment for Traffic Monitoring Tasks [0.0]
本研究では、非ベンチマーク合成および実世界のトラフィックシーケンスを用いて、最先端のビデオQAモデルの評価を行う。
VideoLLaMA-2は57%の精度で進行する。
これらの知見は、トラフィック監視におけるVideoQAの可能性を裏付けるだけでなく、多目的追跡、時間的推論、合成機能の改善の必要性も強調している。
論文 参考訳(メタデータ) (2024-12-02T05:15:32Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning [0.0]
本稿では,車載エゴカメラビューのためのマルチモーダル高密度映像キャプションモデルであるTrafficVLMを提案する。
私たちのソリューションは、AI City Challenge 2024のトラック2で傑出した成果を上げました。
論文 参考訳(メタデータ) (2024-04-14T14:51:44Z) - Traffic-Domain Video Question Answering with Automatic Captioning [69.98381847388553]
Video Question Answering (VidQA) は、高度な機械推論機能を促進する重要な可能性を示している。
本稿では,交通領域の知識を大規模ビデオ言語モデルに注入する弱スーパービジョン手法として,交通領域ビデオ質問回答と自動キャプション(TRIVIA)を提案する。
論文 参考訳(メタデータ) (2023-07-18T20:56:41Z) - TrafficQA: A Question Answering Benchmark and an Efficient Network for
Video Reasoning over Traffic Events [13.46045177335564]
収集した10,080本のビデオと62,535本のqaペアに基づく,新たなデータセットtrafficqa(traffic question answering)を作成しました。
複雑で実用的であるさまざまな交通イベントに対する推論能力を評価するために, さまざまな交通シナリオに対応する6つの難しい推論タスクを提案する。
また,計算効率が高く,信頼性の高いビデオ推論を実現するために,動的推論による新しい視覚ネットワークであるEclipseを提案する。
論文 参考訳(メタデータ) (2021-03-29T12:12:50Z) - Hierarchical Conditional Relation Networks for Multimodal Video Question
Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。
条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。
その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文 参考訳(メタデータ) (2020-10-18T02:31:06Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。