論文の概要: TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.05489v1
- Date: Fri, 07 Nov 2025 18:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.869921
- Title: TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning
- Title(参考訳): TimeSearch-R:自己検証強化学習による長期ビデオ理解のための適応的時間探索
- Authors: Junwen Pan, Qizhe Zhang, Rui Zhang, Ming Lu, Xin Wan, Yuan Zhang, Chang Liu, Qi She,
- Abstract要約: 時間探索は、与えられたクエリに基づいて数万のフレームから最小限のフレームを識別することを目的としている。
TimeSearch-Rは、時間検索をインターリーブされたテキストビデオ思考として再構成する。
検索ビデオクリップを、強化学習による推論プロセスにシームレスに統合する。
- 参考スコア(独自算出の注目度): 30.895558843927862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal search aims to identify a minimal set of relevant frames from tens of thousands based on a given query, serving as a foundation for accurate long-form video understanding. Existing works attempt to progressively narrow the search space. However, these approaches typically rely on a hand-crafted search process, lacking end-to-end optimization for learning optimal search strategies. In this paper, we propose TimeSearch-R, which reformulates temporal search as interleaved text-video thinking, seamlessly integrating searching video clips into the reasoning process through reinforcement learning (RL). However, applying RL training methods, such as Group Relative Policy Optimization (GRPO), to video reasoning can result in unsupervised intermediate search decisions. This leads to insufficient exploration of the video content and inconsistent logical reasoning. To address these issues, we introduce GRPO with Completeness Self-Verification (GRPO-CSV), which gathers searched video frames from the interleaved reasoning process and utilizes the same policy model to verify the adequacy of searched frames, thereby improving the completeness of video reasoning. Additionally, we construct datasets specifically designed for the SFT cold-start and RL training of GRPO-CSV, filtering out samples with weak temporal dependencies to enhance task difficulty and improve temporal search capabilities. Extensive experiments demonstrate that TimeSearch-R achieves significant improvements on temporal search benchmarks such as Haystack-LVBench and Haystack-Ego4D, as well as long-form video understanding benchmarks like VideoMME and MLVU. Notably, TimeSearch-R establishes a new state-of-the-art on LongVideoBench with 4.1% improvement over the base model Qwen2.5-VL and 2.0% over the advanced video reasoning model Video-R1. Our code is available at https://github.com/Time-Search/TimeSearch-R.
- Abstract(参考訳): 時間探索は、与えられたクエリに基づいて、数万の関連するフレームの最小セットを識別することを目的としており、正確なロングフォームビデオ理解の基盤となっている。
既存の作業は、検索スペースを徐々に狭めようと試みている。
しかし、これらのアプローチは一般的に手作りの検索プロセスに依存しており、最適な検索戦略を学ぶためのエンドツーエンドの最適化が欠如している。
本稿では,時間的検索をインターリーブなテキストビデオ思考として再構成し,検索ビデオクリップを強化学習(RL)による推論プロセスにシームレスに統合するTimeSearch-Rを提案する。
しかし、グループ相対ポリシー最適化(GRPO)のようなRLトレーニング手法をビデオ推論に適用すると、教師なしの中間探索決定が生じる。
これにより、ビデオの内容の探索が不十分になり、論理的推論が矛盾する。
これらの問題に対処するため,GRPO with Completeness Self-Verification (GRPO-CSV) を導入し,映像フレームをインターリーブした推論プロセスから収集し,同じポリシーモデルを用いて検索フレームの妥当性を検証し,映像フレームの完全性を向上させる。
さらに、GRPO-CSVのSFTコールドスタートおよびRLトレーニング用に特別に設計されたデータセットを構築し、時間的依存の弱いサンプルをフィルタリングし、タスクの難易度を高め、時間的検索能力を向上させる。
大規模な実験により、TimeSearch-Rは、Haystack-LVBenchやHaystack-Ego4Dといった時間検索ベンチマークや、VideoMMEやMLVUのような長文ビデオ理解ベンチマークに対して、大幅な改善を達成している。
特にTimeSearch-Rは、ベースモデルであるQwen2.5-VLよりも4.1%改善し、先進的なビデオ推論モデルであるVideo-R1よりも2.0%改善したLongVideoBench上で、新しい最先端技術を確立している。
私たちのコードはhttps://github.com/Time-Search/TimeSearch-R.comで利用可能です。
関連論文リスト
- MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - T*: Re-thinking Temporal Search for Long-Form Video Understanding [66.72243342954823]
現在の時間探索法は、Longvideobenchサブセットで2.1%の時間F1スコアしか達成していない。
画像中の視覚探索に触発されて,空間探索として高価な時間探索を再構成する軽量な時間探索フレームワークT*を提案する。
大規模な実験により、T*と既存の方法を統合することにより、SOTAの長めのビデオ理解が大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-03T04:03:10Z) - TimeSearch: Hierarchical Video Search with Spotlight and Reflection for Human-like Long Video Understanding [24.52604124233087]
大規模ビデオ言語モデル(LVLM)は、様々なビデオ言語タスクで顕著なパフォーマンスを示している。
長いビデオを空間的にも時間的にもダウンサンプリングすることは視覚幻覚を引き起こす可能性があるため、長いビデオを正確に解釈することは困難である。
TimeSearchは2つの人間のようなプリミティブを統合された自己回帰型LVLMに統合する。
論文 参考訳(メタデータ) (2025-04-02T06:47:19Z) - A Flexible and Scalable Framework for Video Moment Search [51.47907684209207]
本稿では,テキストクエリにマッチする任意の長さの動画のコレクションからランク付けされたモーメントのリストを取得するためのフレキシブルなフレームワークを提案する。
SPR(Segment-Proposal-Ranking)と呼ばれる我々のフレームワークは,探索プロセスを,セグメント検索,提案生成,モーメント改善という3つの独立した段階に単純化する。
TVR-Rankingデータセットの評価から,我々のフレームワークは,計算コストと処理時間を大幅に削減して最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2025-01-09T08:54:19Z) - T2VIndexer: A Generative Video Indexer for Efficient Text-Video Retrieval [30.48217069475297]
本稿では,ビデオ識別子を直接生成するシーケンス・ツー・シーケンス生成モデルであるT2VIndexerというモデルに基づくビデオインデクサを提案する。
T2VIndexerは高い精度を維持しながら検索時間を短縮することを目的としている。
論文 参考訳(メタデータ) (2024-08-21T08:40:45Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。