論文の概要: Video-in-the-Loop: Span-Grounded Long Video QA with Interleaved Reasoning
- arxiv url: http://arxiv.org/abs/2510.04022v1
- Date: Sun, 05 Oct 2025 04:03:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.404057
- Title: Video-in-the-Loop: Span-Grounded Long Video QA with Interleaved Reasoning
- Title(参考訳): ビデオ・イン・ザ・ループ:Span-Grounded Long Video QA with Interleaved Reasoning
- Authors: Chendong Wang, Donglin Bai, Yifan Yang, Xiao Jin, Anlan Zhang, Rui Wang, Shiqi Jiang, Yuqing Yang, Hao Wu, Qi Dai, Chong Luo, Ting Cao, Lili Qiu, Suman Banerjee,
- Abstract要約: ViTLは2段階の長ビデオQAフレームワークで、問題関連区間を初期化して固定トークン予算を保存する
ViTLは最大8.6%まで到達し、長時間のQAと時間的グラウンドでは50%少ないフレーム入力を実現している。
- 参考スコア(独自算出の注目度): 41.7663185398555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present \emph{Video-in-the-Loop} (ViTL), a two-stage long-video QA framework that preserves a fixed token budget by first \emph{localizing} question-relevant interval(s) with a low-fps skim and then \emph{answering} via span-aware reallocation of visual tokens at higher effective frame rate, emitting an interleaved output with both spans and the final option for direct attribution. We also introduce \dataname{}, which converts description based event graphs into \emph{span-grounded} multiple-choice QA by pairing each question with \emph{ground-truth} time span(s) and related reasoning. ViTL is trained end-to-end with an interleaved group-relative objective that couples temporal IoU for localization with answer correctness, allowing credit to flow from answers back to spans without increasing compute. Under fixed token budgets, ViTL attains up to 8.6% with 50% less frame input on long-video QA and temporal grounding (e.g., Charades-STA, ActivityNet-Captions) and ablations show that span-aware token reallocation consistently surpasses uniform sampling. Together, \dataname{} and ViTL provide an interpretable, compute-efficient recipe for scalable long-video QA.
- Abstract(参考訳): 本稿では,2段階の長ビデオQAフレームワークである「ViTL」について紹介する。このフレームワークは,まず,低fpsのスキムで,次に,高効率フレームレートで視覚トークンのスパンアウェアルロケーションを経由し,両方のスパンと直接帰属のためのインターリーブアウトプットを出力することで,固定トークン予算を保存する。
また、記述に基づくイベントグラフを、各質問を \emph{ground-truth} time span(s) と関連推論とペアリングすることで、複数の選択QAに変換する。
ViTLは、時間的IoUを解答正解の局所化に結合するインターリーブされたグループ相対的目的によってエンドツーエンドに訓練され、計算量を増やすことなく、回答からスパンへのクレジットのフローを可能にする。
固定されたトークン予算の下では、ViTLは、長ビデオQAと時間的グラウンド(例えば、Charades-STA、ActivityNet-Captions)のフレーム入力を最大8.6%削減できる。
同時に \dataname{} と ViTL は、スケーラブルな長ビデオ QA のための解釈可能で計算効率のよいレシピを提供する。
関連論文リスト
- Language-Guided Temporal Token Pruning for Efficient VideoLLM Processing [2.648500779572419]
視覚言語モデル(VLM)は、注意機構の複雑さのために長めのビデオに苦しむ。
本稿では,クエリからの時間的手がかりを利用して,適応的にビデオトークンを作成可能な言語誘導型時間的トケンプルーニング(LGTTP)を提案する。
モデルに依存しないフレームワークはTimeChatやLLaVA-Videoと統合され,オリジナル性能の97~99%を保ちながら,計算の65%の削減を実現している。
論文 参考訳(メタデータ) (2025-08-25T05:51:21Z) - TimeLogic: A Temporal Logic Benchmark for Video QA [64.32208175236323]
時間的論理的質問を自動的に生成するTimeLogic QA(TLQA)フレームワークを導入する。
私たちはSTAR、Breakfast、AGQA、CrossTaskの4つのデータセットを活用し、カテゴリ毎に2kと10kのQAペアを生成します。
時間的複雑性の異なる16カテゴリの時間論理に対して,ビデオQAモデルの時間的推論性能を評価する。
論文 参考訳(メタデータ) (2025-01-13T11:12:59Z) - TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language
Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。
TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。
段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-10-29T16:25:32Z) - Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding
in Long Videos [60.86880787242561]
ビデオ時間グラウンドは、クエリ記述にマッチしたビデオセグメントをピンポイントすることを目的としている。
高速な時間的グラウンド化のためのエンドツーエンドのフレームワークを提案する。
提案手法は最先端技術よりも優れ,textbf14.6$times$ / textbf102.8$times$高効率を実現している。
論文 参考訳(メタデータ) (2023-03-15T03:54:43Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Long-term Leap Attention, Short-term Periodic Shift for Video
Classification [41.87505528859225]
ビデオトランスは、静的な視覚変換器よりも計算負荷が大きい。
本稿では,ビデオトランスフォーマーのための長期的textbftextitLeap Attention'(LAN),短期的textbftextitPeriodic Shift'(textitP-Shift)モジュールであるLAPSを提案する。
論文 参考訳(メタデータ) (2022-07-12T13:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。