論文の概要: TRACE: Evidence Grounding-Guided Multi-Video Event Understanding and Claim Generation
- arxiv url: http://arxiv.org/abs/2605.16740v1
- Date: Sat, 16 May 2026 01:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.998213
- Title: TRACE: Evidence Grounding-Guided Multi-Video Event Understanding and Claim Generation
- Title(参考訳): TRACE:Evidence Grounding-Guided Multi-Video Event Understanding and Claim Generation
- Authors: Pengyu Yan, Akhil Gorugantu, Mahesh Bhosale, Abdul Wasi, Vishvesh Trivedi, David Doermann,
- Abstract要約: マルチビデオイベント推論のためのエビデンス基盤フレームワークであるTRACEを紹介する。
提案手法はまず,OCRとオブジェクト検出を用いて,ビデオ毎に構造化されたテキスト検索可能なタイムラインを構築する。
テキストのみのLLMはクエリ対応のエビデンスローカライゼーションを実行し、ダウンストリームの視覚的推論に先立って関連するモーメントを選択する。
- 参考スコア(独自算出の注目度): 2.3450855956637913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-video event understanding demands models that can locate and attribute query-relevant evidence scattered across long, heterogeneous video corpora. Existing large vision-language models (LVLMs) often underperform in this regime because they quickly exhaust their context budget and struggle to precisely localize evidentially important segments, frequently missing dense informational cues such as broadcast graphics, subtitles, and scoreboards. We introduce TRACE, an evidence grounding-guided framework that follows a ground-before-reasoning strategy for multi-video event reasoning. Our approach first builds a structured, text-searchable timeline for each video using OCR and object detection. A text-only LLM then conducts query-aware evidence localization, selecting relevant moments prior to any downstream visual reasoning. The retrieved frames and their grounding summaries are subsequently used to steer LVLM-based claim generation and cross-video citation consolidation. Experiments on MAGMaR 2026 and WikiVideo demonstrate that structured grounding markedly boosts factual completeness and attribution fidelity. On the MAGMaR validation split, TRACE raises macro-average MiRAGE F1 from 0.705 to 0.811 compared to an unguided Qwen3-VL-30B baseline, with especially strong improvements in citation recall from 0.440 to 0.628. The method also attains state-of-the-art results on the official MAGMaR 2026 leaderboard.
- Abstract(参考訳): マルチビデオイベント理解は、長い異種ビデオコーパスに散在するクエリ関連エビデンスを見つけ、属性付けできるモデルを必要とする。
既存の大きな視覚言語モデル(LVLM)は、文脈予算をすぐに使い果たし、明らかな重要なセグメントを正確にローカライズするのに苦労するため、しばしば放送グラフィック、字幕、スコアボードのような密集した情報手段を欠いている。
TRACEは,マルチビデオイベント推論のための事前推論戦略に従う,根拠に基づくフレームワークである。
提案手法はまず,OCRとオブジェクト検出を用いて,ビデオ毎に構造化されたテキスト検索可能なタイムラインを構築する。
テキストのみのLLMはクエリ対応のエビデンスローカライゼーションを実行し、ダウンストリームの視覚的推論に先立って関連するモーメントを選択する。
その後、検索したフレームとその接地サマリーを用いて、LVLMベースのクレーム生成とクロスビデオ引用統合を操る。
MAGMaR 2026とWikiVideoの実験では、構造化されたグラウンドリングが事実の完全性と帰属の忠実性を大幅に向上させることを示した。
MAGMaRの検証分割では、TRACEはマクロ平均のMiRAGE F1を0.705から0.811に上昇させ、Qwen3-VL-30Bベースラインは非ガイドのQwen3-VL-30Bに比例し、特に0.440から0.628に改善した。
この方法はまた、公式のMAGMaR 2026のリーダーボードで最先端の結果を得る。
関連論文リスト
- VideoStir: Understanding Long Videos via Spatio-Temporally Structured and Intent-Aware RAG [33.938909878793815]
VideoStirは構造化されマルチモーダルなインテント対応長ビデオRAGフレームワークである。
ビデオは、クリップレベルでテンポラルグラフとして構成され、エビデンスを集約するマルチホップ検索を実行する。
また、MLLMが支援するインテント関連スコアラを導入し、クエリの推論インテントとのアライメントに基づいてフレームを取得する。
論文 参考訳(メタデータ) (2026-04-07T04:26:59Z) - Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding [98.3098451637867]
Video-MME-v2は、ビデオ理解の堅牢性と忠実さを厳格に評価するために設計された総合的なベンチマークである。
データ品質を保証するため、Video-MME-v2は厳格に制御された人間のアノテーションパイプラインを通して構築される。
論文 参考訳(メタデータ) (2026-04-06T17:59:56Z) - SeViCES: Unifying Semantic-Visual Evidence Consensus for Long Video Understanding [36.30263540665245]
本稿では,効果的で信頼性の高いロングビデオ理解のためのフレームワークを提案する。
SeViCESはトレーニング不要でモデルに依存しない2つの重要なコンポーネントを導入している。
長いビデオ理解ベンチマークの実験によると、SeViCESは精度と堅牢性の両方で最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-23T14:55:28Z) - iFinder: Structured Zero-Shot Vision-Based LLM Grounding for Dash-Cam Video Reasoning [51.15353027471834]
iFinderは、ダッシュカムのビデオを大規模な言語モデルのための階層的で解釈可能なデータ構造に変換するセマンティックグラウンドディングフレームワークである。
iFinderはトレーニング不要のパイプラインとして動作し、トレーニング済みの視覚モデルを使用して重要な手がかりを抽出する。
これは、4つのゼロショット駆動ベンチマークにおいて、エンドツーエンドのV-VLMよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-09-23T20:25:53Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - A Survey on Video Temporal Grounding with Multimodal Large Language Model [107.24431595873808]
時間的グラウンドリング(VTG)の最近の進歩は、きめ細かいビデオ理解を著しく向上させた。
より優れたマルチモーダル理解と推論能力により、MLLM(VTG-MLLM)に基づくVTGアプローチは、従来の微調整手法を徐々に超えつつある。
一般的なビデオ言語理解に関する広範な調査にもかかわらず、VTG-MLLMに関する包括的なレビューは乏しいままである。
論文 参考訳(メタデータ) (2025-08-07T08:52:11Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。