論文の概要: SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.13874v1
- Date: Mon, 15 Dec 2025 20:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.480572
- Title: SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning
- Title(参考訳): SAGE:強化学習によるロングビデオ推論のためのスマートな非水平エージェントのトレーニング
- Authors: Jitesh Jain, Jialuo Li, Zixian Ma, Jieyu Zhang, Chris Dongjoo Kim, Sangho Lee, Rohun Tripathi, Tanmay Gupta, Christopher Clark, Humphrey Shi,
- Abstract要約: SAGEは、1ターンでより単純な問題を処理しながら、長いビデオのマルチターン推論を行うエージェントシステムである。
さらに,SAGE-MMにおける任意の水平推論能力を注入するための効果的なRLポストトレーニングレシピを提案する。
提案手法の有効性を実証的に検証し,オープンエンドビデオ推論タスクにおいて最大6.1%の顕著な改善が見られた。
- 参考スコア(独自算出の注目度): 53.67654657011112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As humans, we are natural any-horizon reasoners, i.e., we can decide whether to iteratively skim long videos or watch short ones in full when necessary for a given task. With this in mind, one would expect video reasoning models to reason flexibly across different durations. However, SOTA models are still trained to predict answers in a single turn while processing a large number of frames, akin to watching an entire long video, requiring significant resources. This raises the question: Is it possible to develop performant any-horizon video reasoning systems? Inspired by human behavior, we first propose SAGE, an agent system that performs multi-turn reasoning on long videos while handling simpler problems in a single turn. Secondly, we introduce an easy synthetic data generation pipeline using Gemini-2.5-Flash to train the orchestrator, SAGE-MM, which lies at the core of SAGE. We further propose an effective RL post-training recipe essential for instilling any-horizon reasoning ability in SAGE-MM. Thirdly, we curate SAGE-Bench with an average duration of greater than 700 seconds for evaluating video reasoning ability in real-world entertainment use cases. Lastly, we empirically validate the effectiveness of our system, data, and RL recipe, observing notable improvements of up to 6.1% on open-ended video reasoning tasks, as well as an impressive 8.2% improvement on videos longer than 10 minutes.
- Abstract(参考訳): 人間としては、我々は自然な非水平推論者であり、例えば、長いビデオを反復的にスキミングするか、与えられたタスクに必要であればショートビデオをフルに見るかを決めることができる。
このことを念頭に置いて、ビデオ推論モデルが様々な期間にわたって柔軟に推理されることを期待しているだろう。
しかし、SOTAモデルは、長いビデオ全体を見るのと同じように、大量のフレームを処理しながら、1ターンで回答を予測するように訓練されている。
これは、パフォーマンスの高い非水平ビデオ推論システムを開発することは可能か?
人間の行動にインスパイアされたエージェントシステムであるSAGEを提案する。
次に,Gemini-2.5-Flashを用いた簡易な合成データ生成パイプラインを導入し,SAGEのコアに位置するオーケストレータであるSAGE-MMをトレーニングする。
さらに,SAGE-MMにおける任意の水平推論能力を注入するための効果的なRLポストトレーニングレシピを提案する。
第3に、現実のエンターテイメントのユースケースにおけるビデオ推論能力を評価するために、平均700秒以上のSAGE-Benchをキュレートする。
最後に、我々のシステム、データ、およびRLレシピの有効性を実証的に検証し、オープンエンドのビデオ推論タスクにおいて最大6.1%の顕著な改善が見られた。
関連論文リスト
- LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding [106.23494088118571]
LongVideo-R1は、効率的なビデオコンテキストナビゲーションのためのマルチモーダル大言語モデル(MLLM)エージェントである。
これは、その後の処理において最も情報に富むビデオクリップを推測する。
LongVideo-R1エージェントは、2段階のパラダイムを通じてQwen-3-8Bモデルに微調整される。
論文 参考訳(メタデータ) (2026-02-24T13:49:47Z) - LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling [87.98096428508181]
LongVTは、Multimodal Chain-of-Tool-Thoughtを通じて"Thinking with Long Videos"を可能にするエンドツーエンドのエージェントフレームワークである。
我々は、LMM固有の時間的接地機能を利用して、特定のビデオクリップをズームインし、よりきめ細かいビデオフレームを再サンプリングするネイティブビデオトリミングツールを開発した。
トレーニングデータセットは, ツール統合型冷間始動微調整用247.9K試料, エージェント強化学習用1.6K試料, エージェント強化微調整用15.4K試料からなる。
論文 参考訳(メタデータ) (2025-11-25T19:22:48Z) - Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [39.6349428129868]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。
本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
ビジュアルツールボックスを使うことで、モデルは必要に応じて新しいビデオフレームを密にサンプリングし、正確なロングビデオ推論のためのマルチモーダルCoTを生成することができる。
論文 参考訳(メタデータ) (2025-08-06T13:03:21Z) - Scaling RL to Long Videos [115.96341152407008]
LongVILA-R1-7Bはビデオベンチマークで高いパフォーマンスを達成し、ビデオMMEではそれぞれ65.1%と71.1%の精度を達成した。
LongVILA-R1-7Bは最大8,192フレームのビデオフレームとFPS設定をサポートする。
各種モダリティのRLトレーニングをサポートする,一般公開のためのトレーニングシステムをリリースする。
論文 参考訳(メタデータ) (2025-07-10T17:47:40Z) - VideoChat-A1: Thinking with Long Videos by Chain-of-Shot Reasoning [40.071064407275564]
VideoChat-A1は、新しい長編ビデオエージェントパラダイムである。
長いビデオでは、明確な連鎖推論パラダイムを通じて深く考えることができる。
ショットチェーンに沿ったマルチモーダル推論によって、VideoChat-A1はステップバイステップの人間の思考プロセスを効果的に模倣することができる。
論文 参考訳(メタデータ) (2025-06-06T13:58:31Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。