論文の概要: VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning
- arxiv url: http://arxiv.org/abs/2512.22315v1
- Date: Fri, 26 Dec 2025 11:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.989176
- Title: VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning
- Title(参考訳): VideoZoomer:ロングビデオ推論のための強化学習型テンポラルフォーカス
- Authors: Yang Ding, Yizhen Zhang, Xin Lai, Ruihang Chu, Yujiu Yang,
- Abstract要約: VideoZoomerは、MLLMが推論中に視覚的焦点を制御することができる新しいエージェントフレームワークである。
私たちの7Bモデルは、多種多様な複雑な推論パターンを提供し、幅広いビデオ理解と推論のベンチマークに強いパフォーマンスをもたらします。
これらの創発的な能力は、既存のオープンソースモデルを一貫して上回り、挑戦的なタスクでプロプライエタリなシステムをライバルにさえできる。
- 参考スコア(独自算出の注目度): 49.35834435935727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable progress in vision-language tasks yet remain limited in long video understanding due to the limited context window. Consequently, prevailing approaches tend to rely on uniform frame sampling or static pre-selection, which might overlook critical evidence and unable to correct its initial selection error during its reasoning process. To overcome these limitations, we propose VideoZoomer, a novel agentic framework that enables MLLMs to dynamically control their visual focus during reasoning. Starting from a coarse low-frame-rate overview, VideoZoomer invokes a temporal zoom tool to obtain high-frame-rate clips at autonomously chosen moments, thereby progressively gathering fine-grained evidence in a multi-turn interactive manner. Accordingly, we adopt a two-stage training strategy: a cold-start supervised fine-tuning phase on a curated dataset of distilled exemplar and reflection trajectories, followed by reinforcement learning to further refine the agentic policy. Extensive experiments demonstrate that our 7B model delivers diverse and complex reasoning patterns, yielding strong performance across a broad set of long video understanding and reasoning benchmarks. These emergent capabilities allow it to consistently surpass existing open-source models and even rival proprietary systems on challenging tasks, while achieving superior efficiency under reduced frame budgets.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚言語タスクにおいて目覚しい進歩を遂げてきたが、コンテキストウィンドウが限られているため、長いビデオ理解において制限されている。
その結果、一般的なアプローチは、一様フレームサンプリングや静的事前選択に依存する傾向があり、これは重要な証拠を見落とし、推論過程において初期選択エラーを修正できない可能性がある。
これらの制限を克服するために,MLLMが推論中に視覚的焦点を動的に制御できる新しいエージェントフレームワークであるVideoZoomerを提案する。
粗い低フレームレートの概要から、VideoZoomerはテンポラリズームツールを起動し、自律的に選択された瞬間に高フレームレートのクリップを得る。
そこで, 冷間開始制御型微調整フェーズを, 蒸留前駆体および反射軌道の硬化したデータセット上に導入し, 次いで強化学習を行い, エージェントポリシーをさらに洗練する。
大規模な実験により、我々の7Bモデルは多種多様な複雑な推論パターンを提供し、長いビデオ理解と推論のベンチマークの幅広いセットに強いパフォーマンスをもたらします。
これらの創発的な能力により、既存のオープンソースモデルと競合するプロプライエタリなシステムを常に上回りながら、フレーム予算の削減の下で優れた効率を達成することができる。
関連論文リスト
- FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - TSPO: Temporal Sampling Policy Optimization for Long-form Video Language Understanding [25.675553077419274]
MLLM(Multimodal Language Models)は、視覚タスクにおいて大きな進歩を見せている。
本稿では、MLLMの長文ビデオ言語理解を強化学習により促進する時間サンプリングポリシー最適化(TSPO)を提案する。
我々のTSPOは、複数の長いビデオ理解ベンチマークにまたがって最先端のビデオMLLM間での転送能力を示す。
論文 参考訳(メタデータ) (2025-08-06T12:03:36Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。