論文の概要: FrameThinker: Learning to Think with Long Videos via Multi-Turn Frame Spotlighting
- arxiv url: http://arxiv.org/abs/2509.24304v2
- Date: Tue, 30 Sep 2025 01:55:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.412652
- Title: FrameThinker: Learning to Think with Long Videos via Multi-Turn Frame Spotlighting
- Title(参考訳): FrameThinker: 長いビデオで考えることを学ぶには、マルチTurn Frame Spotlightingを使う
- Authors: Zefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng,
- Abstract要約: 本稿では,長編ビデオによる思考の概念を紹介し,新しいフレームワークFrameThinkerを提案する。
FrameThinkerは,処理フレーム数を劇的に削減しつつ,ベースラインよりも+10.4%の大幅な平均改善を実現していることを示す。
最も注目すべきは、7BモデルであるFrameThinkerがLongVideo-Reason上で新しい最先端技術を確立し、平均20.6フレームで76.1%の精度を実現したことです。
- 参考スコア(独自算出の注目度): 62.25888935329454
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While Large Vision-Language Models (LVLMs) have achieved substantial progress in video understanding, their application to long video reasoning is hindered by uniform frame sampling and static textual reasoning, which are inefficient and struggle to handle visually intensive video tasks. To overcome these challenges, in this paper, we introduce the concept of thinking with long videos and propose a novel framework FrameThinker. Within this framework, LVLMs are able to iteratively interrogate video content. Developing such video reasoning capabilities in LVLMs presents notable challenges, particularly in adapting the model to new video actions (e.g. select frame), and designing reward functions to guide LVLMs to adopt the newly introduced action. To solve these challenges, we propose a two-phase training strategy, first employing Supervised Fine-Tuning (SFT) to instill fundamental action capabilities, followed by Reinforcement Learning (RL) to optimize a strategic decision-making policy. Notably, in this RL phase, we conduct an in-depth and comprehensive exploration of the reward design for each action and format reward. Extensive experiments on reasoning benchmarks like Video-Holmes, LongVideo-Reason, and long-video understanding benchmarks such as LongVideoBench, MLVU, VideoMME, and LVBench, demonstrate that FrameThinker achieves a significant average improvement of +10.4% over baselines while drastically reducing the number of processed frames. Most notably, our 7B model, FrameThinker establishes a new state-of-the-art on LongVideo-Reason, achieving 76.1% accuracy using an average of only 20.6 frames. This not only outperforms the competitive LongVILA-R1 (72.0%) but does so with over 20x fewer frames (vs. 512), demonstrating unparalleled efficiency and effectiveness.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、ビデオ理解においてかなりの進歩を遂げているが、長いビデオ推論への応用は、一様フレームサンプリングと静的テキスト推論によって妨げられている。
本稿では,これらの課題を克服するために,長編ビデオによる思考の概念を導入し,新しいフレームワークFrameThinkerを提案する。
このフレームワーク内では、LVLMはビデオコンテンツを反復的に問うことができる。
LVLMでこのようなビデオ推論機能を開発することは、特に新しいビデオアクション(例えば、選択フレーム)にモデルを適応させ、新しく導入されたアクションを採用するためにLVLMを誘導する報酬関数を設計する際の顕著な課題を示す。
これらの課題を解決するために,我々はまず,基本動作能力を具現化するためにスーパービジョン・ファインチューニング(SFT)を,戦略的意思決定方針を最適化するために強化学習(RL)を併用した2段階のトレーニング戦略を提案する。
特に、このRLフェーズでは、各アクションおよびフォーマット報酬に対する報酬設計について、深く、包括的に調査する。
Video-Holmes、LongVideo-Reasonなどの推論ベンチマークやLongVideoBench、MLVU、VideoMME、LVBenchといったロングビデオ理解ベンチマークに関する大規模な実験は、FrameThinkerがベースラインよりも+10.4%向上し、処理されたフレームの数を劇的に削減していることを示した。
最も注目すべきは、7BモデルであるFrameThinkerがLongVideo-Reason上で新しい最先端技術を確立し、平均20.6フレームで76.1%の精度を実現したことです。
これは競合するLongVILA-R1(72.0%)を上回るだけでなく、20倍以上のフレーム(vs.512)で性能を向上し、非並列効率と有効性を示している。
関連論文リスト
- Scaling RL to Long Videos [107.41198639507255]
LongVILA-R1-7Bはビデオベンチマークで高いパフォーマンスを達成し、ビデオMMEではそれぞれ65.1%と71.1%の精度を達成した。
LongVILA-R1-7Bは最大8,192フレームのビデオフレームとFPS設定をサポートする。
各種モダリティのRLトレーニングをサポートする,一般公開のためのトレーニングシステムをリリースする。
論文 参考訳(メタデータ) (2025-07-10T17:47:40Z) - BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性
本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。
我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-31T18:01:23Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。