Fugu-MT 論文翻訳(概要): LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

論文の概要: LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

arxiv url: http://arxiv.org/abs/2602.20913v1
Date: Tue, 24 Feb 2026 13:49:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.771267
Title: LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding
Title（参考訳）: LongVideo-R1:低コストのロングビデオ理解のためのスマートナビゲーション
Authors: Jihao Qiu, Lingxi Xie, Xinyue Huo, Qi Tian, Qixiang Ye,
Abstract要約: LongVideo-R1は、効率的なビデオコンテキストナビゲーションのためのマルチモーダル大言語モデル(MLLM)エージェントである。これは、その後の処理において最も情報に富むビデオクリップを推測する。 LongVideo-R1エージェントは、2段階のパラダイムを通じてQwen-3-8Bモデルに微調整される。
参考スコア（独自算出の注目度）: 106.23494088118571
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper addresses the critical and underexplored challenge of long video understanding with low computational budgets. We propose LongVideo-R1, an active, reasoning-equipped multimodal large language model (MLLM) agent designed for efficient video context navigation, avoiding the redundancy of exhaustive search. At the core of LongVideo-R1 lies a reasoning module that leverages high-level visual cues to infer the most informative video clip for subsequent processing. During inference, the agent initiates traversal from top-level visual summaries and iteratively refines its focus, immediately halting the exploration process upon acquiring sufficient knowledge to answer the query. To facilitate training, we first extract hierarchical video captions from CGBench, a video corpus with grounding annotations, and guide GPT-5 to generate 33K high-quality chain-of-thought-with-tool trajectories. The LongVideo-R1 agent is fine-tuned upon the Qwen-3-8B model through a two-stage paradigm: supervised fine-tuning (SFT) followed by reinforcement learning (RL), where RL employs a specifically designed reward function to maximize selective and efficient clip navigation. Experiments on multiple long video benchmarks validate the effectiveness of name, which enjoys superior tradeoff between QA accuracy and efficiency. All curated data and source code are provided in the supplementary material and will be made publicly available. Code and data are available at: https://github.com/qiujihao19/LongVideo-R1
Abstract（参考訳）: 本稿では,計算予算の少ない長大映像理解における批判的かつ過小評価された課題について論じる。本稿では,効率的なビデオコンテキストナビゲーションのための多モード多言語モデル (MLLM) エージェントであるLongVideo-R1を提案する。 LongVideo-R1のコアには、高レベルの視覚的手がかりを利用して、その後の処理において最も情報に富んだビデオクリップを推測する推論モジュールがある。推論中、エージェントはトップレベルのビジュアルサマリーからのトラバースを開始し、その焦点を反復的に洗練し、クエリに答える十分な知識を取得すると直ちに探索プロセスを停止する。トレーニングを容易にするため,まず接地アノテーション付きビデオコーパスであるCGBenchから階層型ビデオキャプションを抽出し,GPT-5を誘導し,33Kの高品質なチェーン・オブ・トゥ・ツール・トラジェクトリを生成する。 LongVideo-R1エージェントはQwen-3-8Bモデルに基づいて2段階のパラダイムで微調整される: 教師付き微調整(SFT)と強化学習(RL)でRLは選択的で効率的なクリップナビゲーションを最大化するために特別に設計された報酬関数を使用する。複数の長いビデオベンチマークの実験では、QAの精度と効率のトレードオフが優れている名前の有効性が検証されている。すべてのキュレートされたデータとソースコードは補足資料で提供され、公開されます。コードとデータは、https://github.com/qiujihao19/LongVideo-R1.comで入手できる。

関連論文リスト

Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding [38.87967229483403]
Video-TwGは、新しいThink-with-Groundingパラダイムを採用したカリキュラム強化フレームワークである。 Video-TwGは、複雑な補助モジュールや注釈付き推論トレースに頼ることなく、簡単にエンドツーエンドでトレーニングすることができる。提案アルゴリズムは, 微粒な接地報酬, 自己確認擬似報酬, 精度保証機構を特徴とする。
論文参考訳（メタデータ） (2026-02-21T03:16:23Z)
Towards Effective and Efficient Long Video Understanding of Multimodal Large Language Models via One-shot Clip Retrieval [57.88666884515147]
ワンショットビデオクリップに基づく検索オーグメンテーション(OneClip-RAG)を提案する。 OneClip-RAGは、ビデオ理解のためのビデオクリップの利点をフル活用している。また、新しいクエリ誘導ビデオチャンキングアルゴリズムも備えている。
論文参考訳（メタデータ） (2025-12-09T09:40:20Z)
LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling [87.98096428508181]
LongVTは、Multimodal Chain-of-Tool-Thoughtを通じて"Thinking with Long Videos"を可能にするエンドツーエンドのエージェントフレームワークである。我々は、LMM固有の時間的接地機能を利用して、特定のビデオクリップをズームインし、よりきめ細かいビデオフレームを再サンプリングするネイティブビデオトリミングツールを開発した。トレーニングデータセットは, ツール統合型冷間始動微調整用247.9K試料, エージェント強化学習用1.6K試料, エージェント強化微調整用15.4K試料からなる。
論文参考訳（メタデータ） (2025-11-25T19:22:48Z)
ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文参考訳（メタデータ） (2025-07-28T15:52:36Z)
Scaling RL to Long Videos [115.96341152407008]
LongVILA-R1-7Bはビデオベンチマークで高いパフォーマンスを達成し、ビデオMMEではそれぞれ65.1%と71.1%の精度を達成した。 LongVILA-R1-7Bは最大8,192フレームのビデオフレームとFPS設定をサポートする。各種モダリティのRLトレーニングをサポートする,一般公開のためのトレーニングシステムをリリースする。
論文参考訳（メタデータ） (2025-07-10T17:47:40Z)
VideoExplorer: Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文参考訳（メタデータ） (2025-06-12T15:39:10Z)
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [60.88843818016968]
長時間のビデオ理解は時間空間の複雑さと質問応答の難しさによって大きな課題を呈する。セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discovery (DVD) エージェントを提案する。当社のDVDエージェントは,LVBenchデータセット上での最先端性能を実現し,74.2%の精度を実現した。
論文参考訳（メタデータ） (2025-05-23T16:37:36Z)
Video-R1: Reinforcing Video Reasoning in MLLMs [48.62020003266273]
Video-R1は、ビデオ推論にインセンティブを与えるためのR1パラダイムを体系的に探求する最初の試みである。まず,T-GRPOアルゴリズムを提案する。 SFTコールドスタートのためのVideo-R1-CoT-165kと、RLトレーニングのためのVideo-R1-260kの2つのデータセットを構築した。
論文参考訳（メタデータ） (2025-03-27T17:59:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。