論文の概要: Zoom-Zero: Reinforced Coarse-to-Fine Video Understanding via Temporal Zoom-in
- arxiv url: http://arxiv.org/abs/2512.14273v1
- Date: Tue, 16 Dec 2025 10:34:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.684215
- Title: Zoom-Zero: Reinforced Coarse-to-Fine Video Understanding via Temporal Zoom-in
- Title(参考訳): Zoom-Zero:テンポラルズームインによる強化された粗大なビデオ理解
- Authors: Xiaoqian Shen, Min-Hung Chen, Yu-Chiang Frank Wang, Mohamed Elhoseiny, Ryo Hachiuma,
- Abstract要約: グラウンドドビデオ質問応答(GVQA)は、ビデオ内の関連時間セグメントをローカライズし、与えられた質問に対する正確な回答を生成することを目的としている。
Zoom-Zeroは、まずクエリ関連セグメントをローカライズし、次に時間的に最も健全なフレームにズームして、よりきめ細かい視覚的検証を行うフレームワークである。
- 参考スコア(独自算出の注目度): 80.03914556721519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grounded video question answering (GVQA) aims to localize relevant temporal segments in videos and generate accurate answers to a given question; however, large video-language models (LVLMs) exhibit limited temporal awareness. Although existing approaches based on Group Relative Policy Optimization (GRPO) attempt to improve temporal grounding, they still struggle to faithfully ground their answers in the relevant video evidence, leading to temporal mislocalization and hallucinations. In this work, we present Zoom-Zero, a coarse-to-fine framework that first localizes query-relevant segments and then temporally zooms into the most salient frames for finer-grained visual verification. Our method addresses the limits of GRPO for the GVQA task with two key innovations: (i) a zoom-in accuracy reward that validates the fidelity of temporal grounding prediction and facilitates fine-grained visual verification on grounded frames; (ii) token-selective credit assignment, which attributes rewards to the tokens responsible for temporal localization or answer generation, mitigating GRPO's issue in handling multi-faceted reward signals. Our proposed method advances grounded video question answering, improving temporal grounding by 5.2\% on NExT-GQA and 4.6\% on ReXTime, while also enhancing average answer accuracy by 2.4\%. Additionally, the coarse-to-fine zoom-in during inference further benefits long-form video understanding by preserving critical visual details without compromising global context, yielding an average improvement of 6.4\% on long-video benchmarks.
- Abstract(参考訳): グラウンドドビデオ質問応答(GVQA)は,ビデオ中の時間セグメントを局所化し,与えられた質問に対する正確な回答を生成することを目的としているが,大きなビデオ言語モデル(LVLM)は時間的認識に制限がある。
グループ相対的政策最適化(GRPO)に基づく既存のアプローチは、時間的根拠の改善を試みているが、彼らは依然として、その答えを関連するビデオ証拠に忠実に根拠づけることに苦慮し、時間的非局在化と幻覚に繋がる。
本研究では,まずクエリ関連セグメントを局所化し,次に時間的に最も健全なフレームにズームして,よりきめ細かな視覚的検証を行う,粗粒度フレームワークZoom-Zeroを提案する。
提案手法は,GVQAタスクにおけるGRPOの限界を2つの重要なイノベーションで解決する。
一 時間的接地予測の忠実さを検証し、接地フレームのきめ細かい視覚的検証を容易にするズームイン精度報酬
(II)トークン選択型クレジット代入は、時間的ローカライゼーションや応答生成に責任があるトークンに報酬を割り当て、多面的な報酬信号の処理におけるGRPOの問題を軽減する。
NExT-GQAは5.2 %,ReXTimeは4.6 %,平均解答精度は2.4 %向上した。
さらに、推論中の粗いズームインは、グローバルなコンテキストを損なうことなく重要な視覚的詳細を保存することで、長ビデオベンチマークの平均6.4倍の改善をもたらすことによって、より長めのビデオ理解の恩恵を受ける。
関連論文リスト
- Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence [70.2803680525165]
我々は、明示的な証拠をビデオ推論に統合する非エージェントフレームワークであるOpen-o3 Videoを紹介した。
このモデルは、キーオブジェクトとバウンディングボックスをその答えとともに強調し、推論を具体的な視覚的な観察で基礎付けることができる。
V-STARベンチマークでは、Open-o3 Videoは最先端のパフォーマンスを達成し、mAMを14.4%、mLタイムスタンプを24.2%向上させた。
論文 参考訳(メタデータ) (2025-10-23T14:05:56Z) - Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding [56.45689495743107]
Vgentは、長いビデオ理解のためにLVLMを強化するグラフベースの検索推論拡張生成フレームワークである。
我々は,3つの長ビデオ理解ベンチマークを用いて,様々なオープンソースLVLMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2025-10-15T19:14:58Z) - Dense Video Understanding with Gated Residual Tokenization [49.17263029080152]
高時間分解能は、ビデオ理解における微細な細部を捉えるのに不可欠である。
現在のベンチマークは主に低フレームレートサンプリングに依存している。
Dense Video Understanding (DVU)は、トークン化時間とトークンオーバーヘッドの両方を削減することで、高FPSビデオの理解を可能にする。
論文 参考訳(メタデータ) (2025-09-17T17:34:40Z) - Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。
本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。
本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文 参考訳(メタデータ) (2025-07-07T06:51:40Z) - No-frills Temporal Video Grounding: Multi-Scale Neighboring Attention
and Zoom-in Boundary Detection [52.03562682785128]
時間的ビデオグラウンドティングは、未編集のビデオから言語クエリの時間間隔を取得することを目的としている。
テレビGにおける重要な課題は、低SNR(Semantic Noise Ratio)による低SNRの性能低下である。
本稿では,2つのコアモジュールからなる非フリーズTVGモデルを提案する。
論文 参考訳(メタデータ) (2023-07-20T04:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。