論文の概要: Datasets and Recipes for Video Temporal Grounding via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.18100v1
- Date: Thu, 24 Jul 2025 05:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.011195
- Title: Datasets and Recipes for Video Temporal Grounding via Reinforcement Learning
- Title(参考訳): 強化学習によるビデオ時間グラウンドのデータセットとレシピ
- Authors: Ruizhe Chen, Zhiting Fan, Tianze Luo, Heqing Zou, Zhaopeng Feng, Guiyang Xie, Hansheng Zhang, Zhuochen Wang, Zuozhu Liu, Huaijian Zhang,
- Abstract要約: Video Temporal Groundingは、自然言語クエリが与えられたビデオに関連のある時間セグメントをローカライズすることを目的としている。
既存のアプローチは、時間的認識の制限と一般化の低さに悩まされることが多い。
教師付き微調整と強化学習を統合した2段階学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.8322406322074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Temporal Grounding (VTG) aims to localize relevant temporal segments in videos given natural language queries. Despite recent progress with large vision-language models (LVLMs) and instruction-tuning, existing approaches often suffer from limited temporal awareness and poor generalization. In this work, we introduce a two-stage training framework that integrates supervised fine-tuning with reinforcement learning (RL) to improve both the accuracy and robustness of VTG models. Our approach first leverages high-quality curated cold start data for SFT initialization, followed by difficulty-controlled RL to further enhance temporal localization and reasoning abilities. Comprehensive experiments on multiple VTG benchmarks demonstrate that our method consistently outperforms existing models, particularly in challenging and open-domain scenarios. We conduct an in-depth analysis of training strategies and dataset curation, highlighting the importance of both high-quality cold start data and difficulty-controlled RL. To facilitate further research and industrial adoption, we release all intermediate datasets, models, and code to the community.
- Abstract(参考訳): Video Temporal Grounding (VTG)は、自然言語クエリが与えられたビデオに関連のある時間セグメントをローカライズすることを目的としている。
近年の大規模視覚言語モデル(LVLM)と命令チューニングの進歩にもかかわらず、既存のアプローチは時間的認識の制限と一般化の低さに悩まされることが多い。
本稿では,教師付き微調整と強化学習(RL)を統合し,VTGモデルの精度と堅牢性を両立させる2段階トレーニングフレームワークを提案する。
提案手法はまず, SFT初期化のための高品質冷間開始データを活用するとともに, 時間的局所化と推論能力を高めるためにRLの制御が困難である。
複数のVTGベンチマークに関する総合的な実験は、我々の手法が既存のモデル、特に挑戦的かつオープンドメインのシナリオにおいて一貫して優れていることを示した。
トレーニング戦略とデータセットキュレーションの詳細な分析を行い、高品質なコールドスタートデータと難易度制御RLの両方の重要性を強調した。
さらなる研究と産業導入を促進するため、私たちはすべての中間データセット、モデル、コードをコミュニティにリリースします。
関連論文リスト
- Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - TEMPLE:Temporal Preference Learning of Video LLMs via Difficulty Scheduling and Pre-SFT Alignment [48.94844127553743]
TEMPLEはビデオ大言語モデルの時間的推論能力を高めるための体系的なフレームワークである。
提案手法は,比較的小さな自己生成DPOデータを用いて,複数のベンチマークでビデオLLM性能を継続的に改善する。
我々のTEMPLEは、SFTベースの手法をスケーラブルかつ効率的に補完するものであり、信頼性の高いビデオLLMを開発するための道を開くものである。
論文 参考訳(メタデータ) (2025-03-21T08:00:29Z) - Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding [57.26400319795876]
時間的ビデオグラウンディング(TVG)は、長めのビデオ理解における中核的な課題である。
近年のLVLM(Large Vision-Language Models)は,教師付き微調整によるTVG処理の早期実現を示唆している。
強化学習によるLVLMの一般化能力を高める新しいポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T17:04:20Z) - Beyond Just Vision: A Review on Self-Supervised Representation Learning
on Multimodal and Temporal Data [10.006890915441987]
自己教師型学習の普及は、従来のモデルがトレーニングに大量の十分な注釈付きデータを必要とするという事実によって引き起こされる。
モデルの差別的事前学習を通じて、訓練データの効率を向上させるための自己指導手法が導入された。
我々は,時間的データに対するマルチモーダルな自己教師型学習手法の総合的なレビューを初めて提供することを目的とする。
論文 参考訳(メタデータ) (2022-06-06T04:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。