論文の概要: Video-OPD: Efficient Post-Training of Multimodal Large Language Models for Temporal Video Grounding via On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2602.02994v1
- Date: Tue, 03 Feb 2026 02:05:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.187186
- Title: Video-OPD: Efficient Post-Training of Multimodal Large Language Models for Temporal Video Grounding via On-Policy Distillation
- Title(参考訳): ビデオOPD: オンライン蒸留による時間的ビデオグラウンドニングのためのマルチモーダル大言語モデルの効率的な後訓練
- Authors: Jiaze Li, Hao Yin, Haoran Xu, Boshen Xu, Wenhui Tan, Zewen He, Jianzhong Ju, Zhenbo Luo, Jian Luan,
- Abstract要約: 時間的ビデオグラウンディング(TVG)の原則的ポストトレーニングパラダイムとして強化学習が登場している。
我々は,近年のオンライン蒸留の進歩に触発されたTVGのための効率的なポストトレーニングフレームワークであるVideo-OPDを提案する。
- 参考スコア(独自算出の注目度): 29.755136665244805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has emerged as a principled post-training paradigm for Temporal Video Grounding (TVG) due to its on-policy optimization, yet existing GRPO-based methods remain fundamentally constrained by sparse reward signals and substantial computational overhead. We propose Video-OPD, an efficient post-training framework for TVG inspired by recent advances in on-policy distillation. Video-OPD optimizes trajectories sampled directly from the current policy, thereby preserving alignment between training and inference distributions, while a frontier teacher supplies dense, token-level supervision via a reverse KL divergence objective. This formulation preserves the on-policy property critical for mitigating distributional shift, while converting sparse, episode-level feedback into fine-grained, step-wise learning signals. Building on Video-OPD, we introduce Teacher-Validated Disagreement Focusing (TVDF), a lightweight training curriculum that iteratively prioritizes trajectories that are both teacher-reliable and maximally informative for the student, thereby improving training efficiency. Empirical results demonstrate that Video-OPD consistently outperforms GRPO while achieving substantially faster convergence and lower computational cost, establishing on-policy distillation as an effective alternative to conventional reinforcement learning for TVG.
- Abstract(参考訳): 時間的ビデオグラウンディング(TVG)の原則的ポストトレーニングパラダイムとして強化学習が登場したが,既存のGRPOベースの手法は,報酬信号の不足や計算オーバーヘッドの大幅な削減によって根本から制約されている。
我々は,近年のオンライン蒸留の進歩に触発されたTVGのための効率的なポストトレーニングフレームワークであるVideo-OPDを提案する。
ビデオOPDは、現在の方針から直接サンプリングされた軌跡を最適化し、トレーニングと推論分布の整合性を維持する。
この定式化は、スパース、エピソードレベルのフィードバックをきめ細かなステップワイドな学習信号に変換する一方で、分散シフトを緩和するために重要なオン政治特性を保存する。
Video-OPDをベースとして,教師の信頼度と最大情報量の両方のトラジェクトリを反復的に優先順位付けし,トレーニング効率を向上させる軽量トレーニングカリキュラムであるTeacher-Validated Disagreement Focusing(TVDF)を紹介した。
実証実験の結果, ビデオOPDはGRPOを一貫して上回り, コンバージェンスを著しく高速化し, 計算コストを低減し, 従来のTVG強化学習の代替手段としてのオンライン蒸留を確立した。
関連論文リスト
- Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training [29.56905427210088]
Gragient-ARMは、好みのフィードバックから強化学習を使用するルーリックジェネレータとジャッジを共同で最適化するフレームワークである。
ベンチマークのベースライン間で、勾配-ARMは最先端のパフォーマンスを達成し、オフラインおよびオンラインの強化学習設定において、ダウンストリームポリシーアライメントを大幅に改善することを示す。
論文 参考訳(メタデータ) (2026-02-02T00:50:53Z) - TAGRPO: Boosting GRPO on Image-to-Video Generation with Direct Trajectory Alignment [28.18756041538092]
コントラスト学習にインスパイアされたI2Vモデルの堅牢なフレームワークであるTAGRPOを提案する。
我々のアプローチは、同一の初期ノイズから生成されたロールアウトビデオが、最適化のための優れたガイダンスを提供するという観察に基づいている。
論文 参考訳(メタデータ) (2026-01-09T11:15:27Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Accelerating Deep Reinforcement Learning With the Aid of Partial Model:
Energy-Efficient Predictive Video Streaming [97.75330397207742]
深層強化学習を用いて,モバイルネットワーク上でのエネルギー効率の高いビデオストリーミングのための予測電力割り当てを考案した。
連続状態と行動空間を扱うために、我々はDeep Deterministic Policy gradient (DDPG)アルゴリズムを利用する。
シミュレーションの結果,提案手法は完全大規模チャネル予測に基づいて導出される最適方針に収束することが示された。
論文 参考訳(メタデータ) (2020-03-21T17:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。