論文の概要: Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2503.13377v3
- Date: Sun, 29 Jun 2025 08:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.149542
- Title: Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding
- Title(参考訳): Time-R1: 時間的ビデオグラウンドのための学習後の大規模視覚言語モデル
- Authors: Ye Wang, Ziheng Wang, Boshen Xu, Yang Du, Kejun Lin, Zihan Xiao, Zihao Yue, Jianzhong Ju, Liang Zhang, Dingyi Yang, Xiangnan Fang, Zewen He, Zhenbo Luo, Wenxuan Wang, Junqi Lin, Jian Luan, Qin Jin,
- Abstract要約: 時間的ビデオグラウンディング(TVG)は、長めのビデオ理解における中核的な課題である。
近年のLVLM(Large Vision-Language Models)は,教師付き微調整によるTVG処理の早期実現を示唆している。
強化学習によるLVLMの一般化能力を高める新しいポストトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 57.26400319795876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Video Grounding (TVG), the task of locating specific video segments based on language queries, is a core challenge in long-form video understanding. While recent Large Vision-Language Models (LVLMs) have shown early promise in tackling TVG through supervised fine-tuning (SFT), their abilities to generalize remain limited. To address this, we propose a novel post-training framework that enhances the generalization capabilities of LVLMs via reinforcement learning (RL). Specifically, our contributions span three key directions: (1) Time-R1: we introduce a reasoning-guided post-training framework via RL with verifiable reward to enhance the capabilities of LVLMs on the TVG task. (2) TimeRFT: we explore data-efficient post-training strategies on our curated RL-friendly dataset, which trains the model to progressively comprehend difficult samples, leading to better generalization. (3) TVGBench: we carefully construct a small yet comprehensive benchmark for LVLM evaluation, assessing 11 types of queries and featuring balanced distributions across both videos and queries. Extensive experiments demonstrate that Time-R1 achieves state-of-the-art performance across multiple downstream datasets using only 2.5K training data, while improving its general video understanding capabilities.
- Abstract(参考訳): 言語クエリに基づいて特定のビデオセグメントを特定するタスクであるテンポラルビデオグラウンドティング(TVG)は、ロングフォームビデオ理解における中核的な課題である。
近年のLarge Vision-Language Models (LVLMs) は、教師付きファインチューニング(SFT)によるTVG対応の早期の可能性を示しているが、その一般化能力は限られている。
そこで本研究では,強化学習(RL)によるLVLMの一般化能力を高める新しいポストトレーニングフレームワークを提案する。
具体的には,(1)時間R1:TVGタスクにおけるLVLMの能力を高めるために,RLによる推論誘導後学習フレームワークを導入する。
2) 時間RFT: キュレートされたRLフレンドリなデータセット上でデータ効率のよい後学習戦略を探索し, モデルに難解なサンプルを段階的に理解するよう訓練し, より一般化した。
(3)TVGBench:LVLM評価のための小さな総合的なベンチマークを慎重に構築し,11種類のクエリを評価し,ビデオとクエリ間のバランスの取れた分散を特徴付ける。
大規模な実験により、Time-R1は2.5Kのトレーニングデータのみを使用して、複数のダウンストリームデータセットにまたがる最先端のパフォーマンスを実現し、一般的なビデオ理解能力を改善した。
関連論文リスト
- Datasets and Recipes for Video Temporal Grounding via Reinforcement Learning [9.8322406322074]
Video Temporal Groundingは、自然言語クエリが与えられたビデオに関連のある時間セグメントをローカライズすることを目的としている。
既存のアプローチは、時間的認識の制限と一般化の低さに悩まされることが多い。
教師付き微調整と強化学習を統合した2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-24T05:24:01Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - Prompts to Summaries: Zero-Shot Language-Guided Video Summarization [12.200609701777907]
Prompts-to-Summaries:最初のゼロショット・テキストクエリ可能なビデオ要約器を紹介する。
市販のビデオ言語モデル(VidLMs)のキャプションを、大きな言語モデル(LLMs)によるユーザガイドのスキムに変換する。
我々のパイプラインは、メモリ効率の高いバッチスタイルのVidLMプロンプトスキームにより、リッチなシーンレベルの記述を生成する。
SumMe と TVSum では、我々のデータフリーアプローチは、以前のデータハングリーな教師なし手法を全て上回っている。
論文 参考訳(メタデータ) (2025-06-12T15:23:11Z) - How Important are Videos for Training Video LLMs? [55.965474658745315]
画像のみのトレーニングでは,ビデオLLMの方が時間的推論能力が高いことが示唆された。
本稿では,注釈付き画像のシーケンスと時間的機能に着目した質問を含む簡易な微調整手法を提案する。
これは、現在のモデルによるリアルタイムビデオに見られる豊富な時間的特徴の最適部分利用を示唆している。
論文 参考訳(メタデータ) (2025-06-07T21:32:19Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - TimeLoc: A Unified End-to-End Framework for Precise Timestamp Localization in Long Videos [50.04992164981131]
ビデオの時間的ローカライゼーションは、ビデオの理解には不可欠だが、それでも難しい。
このタスクは、時間的アクションローカライゼーション、時間的ビデオグラウンドニング、モーメント検索、ジェネリックイベント境界検出など、いくつかのサブタスクを含む。
複数のタスクを処理できるタイムスタンプローカライゼーションのための統合エンドツーエンドフレームワークであるTimeLocを提案する。
論文 参考訳(メタデータ) (2025-03-09T09:11:26Z) - Enhancing Temporal Modeling of Video LLMs via Time Gating [38.86742466948778]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は、ビデオ質問応答などのビデオ・アンド・ランゲージ・タスクにおいて、優れたパフォーマンスを達成している。
既存のビデオLLMはビデオデータの時間的情報を無視しており、時間的認識のビデオ理解に苦慮している。
時間ゲーティングビデオLLM(TG-Vid)を提案する。
論文 参考訳(メタデータ) (2024-10-08T06:21:29Z) - LITA: Language Instructed Temporal-Localization Assistant [71.68815100776278]
ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,ビデオ中のタイムスタンプをよりよく表現する。
また、アーキテクチャにSlowFastトークンを導入し、微細な時間分解能で時間情報をキャプチャする。
時間的ローカライゼーションに重点を置くことで,既存のビデオLLMに比べて映像ベースのテキスト生成が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-03-27T22:50:48Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding
in Long Videos [60.86880787242561]
ビデオ時間グラウンドは、クエリ記述にマッチしたビデオセグメントをピンポイントすることを目的としている。
高速な時間的グラウンド化のためのエンドツーエンドのフレームワークを提案する。
提案手法は最先端技術よりも優れ,textbf14.6$times$ / textbf102.8$times$高効率を実現している。
論文 参考訳(メタデータ) (2023-03-15T03:54:43Z) - Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。
最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。
ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T06:55:29Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。