論文の概要: VideoTG-R1: Boosting Video Temporal Grounding via Curriculum Reinforcement Learning on Reflected Boundary Annotations
- arxiv url: http://arxiv.org/abs/2510.23397v1
- Date: Mon, 27 Oct 2025 14:55:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.579783
- Title: VideoTG-R1: Boosting Video Temporal Grounding via Curriculum Reinforcement Learning on Reflected Boundary Annotations
- Title(参考訳): VideoTG-R1:リフレクション境界アノテーションによるカリキュラム強化学習によるビデオ時間グラウンドの強化
- Authors: Lu Dong, Haiyu Zhang, Han Lin, Ziang Yan, Xiangyu Zeng, Hongjie Zhang, Yifei Huang, Yi Wang, Zhen-Hua Ling, Limin Wang, Yali Wang,
- Abstract要約: ビデオ時間グラウンド(VTG)は、言語クエリに基づいて、ビデオ内の正確なセグメントを特定することを目的としている。
最近のMLLM(Multimodal Large Language Models)は、強化学習(RL)を通してVTGに取り組むことを約束している。
本稿では,境界アノテーションを反映した新しいカリキュラムRLフレームワークであるVideoTG-R1を提案する。
- 参考スコア(独自算出の注目度): 59.40631942092535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video temporal grounding (VTG) aims to locate precise segments in videos based on language queries, which is a fundamental challenge in video understanding. While recent Multimodal Large Language Models (MLLMs) have shown promise in tackling VTG through reinforcement learning (RL), they overlook the challenges arising from both the quality and difficulty of training samples. (1) Partially annotated samples. Many samples contain relevant segments beyond the annotated interval, introducing ambiguous supervision. (2) Hard-to-ground samples. Samples with poor zero-shot performance produce consistently low and indistinguishable rewards during RL training, exhibiting no clear preference among multiple outputs and thus hindering learning efficiency. To address these challenges, we propose VideoTG-R1, a novel curriculum RL framework with reflected boundary annotations, enabling data-efficient training. Specifically, we propose a Boundary Reflection Agent that utilizes MLLMs to predict query-relevant timestamps outside the annotated intervals, allowing us to identify and filter out partially annotated samples, thereby reducing ambiguity. Furthermore, we introduce a Difficulty Estimation Agent to assess the training difficulty of each sample and design a curriculum RL strategy that dynamically masks the videos of hard-to-ground samples according to the training steps, easing the training difficulty and providing clearer preference. Experiments on the VTG and grounded VideoQA tasks demonstrate the effectiveness of our method. Remarkably, with only 10% of the training samples and 21% of the computational budget, VideoTG-R1 outperforms full-data counterparts under both group relative policy optimization (GRPO) and supervised fine-tuning (SFT). The code is available at https://github.com/ldong1111/VideoTG-R1.
- Abstract(参考訳): ビデオ時間グラウンド(VTG)は、言語クエリに基づくビデオの正確なセグメントを見つけることを目的としており、これはビデオ理解における根本的な課題である。
近年のMLLM(Multimodal Large Language Models)は、強化学習(RL)を通じてVTGに対処する上で有望であることを示す一方で、トレーニングサンプルの品質と難易度の両方から生じる課題を見落としている。
1)部分注記サンプル。
多くのサンプルは注釈付き間隔を超えて関連するセグメントを含んでおり、曖昧な監督を導入している。
2)ハード・ツー・グラウンドのサンプル。
ゼロショット性能の悪いサンプルは、RLトレーニング中に一貫して低く、識別不能な報酬をもたらし、複数の出力間で明確な選好を示さず、学習効率を損なう。
これらの課題に対処するために,リフレクション境界アノテーションを備えた新しいカリキュラムRLフレームワークであるVideoTG-R1を提案する。
具体的には,MLLMを用いてアノテート区間外のクエリ関連タイムスタンプを予測し,部分的にアノテートされたサンプルを識別・フィルタリングし,あいまいさを低減する境界反射エージェントを提案する。
さらに,各サンプルのトレーニング難易度を評価するための難易度評価エージェントを導入し,トレーニング手順に従って,ハード・ツー・グラウンド・サンプルの映像を動的にマスキングし,トレーニング難易度を緩和し,より明確な嗜好を提供するカリキュラムRL戦略を設計する。
VTGとビデオQAタスクの実験により,本手法の有効性が示された。
注目すべきは、トレーニングサンプルの10%と計算予算の21%に過ぎず、VideoTG-R1は、グループ相対ポリシー最適化(GRPO)と教師付き微調整(SFT)の両方で、完全なデータよりも優れています。
コードはhttps://github.com/ldong1111/VideoTG-R1で公開されている。
関連論文リスト
- Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding [57.26400319795876]
時間的ビデオグラウンディング(TVG)は、長めのビデオ理解における中核的な課題である。
近年のLVLM(Large Vision-Language Models)は,教師付き微調整によるTVG処理の早期実現を示唆している。
強化学習によるLVLMの一般化能力を高める新しいポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T17:04:20Z) - Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [57.34255010956452]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,より多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。