論文の概要: DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO
- arxiv url: http://arxiv.org/abs/2506.07464v1
- Date: Mon, 09 Jun 2025 06:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.829356
- Title: DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO
- Title(参考訳): DeepVideo-R1:Difficulty-Aware Regressive GRPOによるビデオ強化ファインチューニング
- Authors: Jinyoung Park, Jeehye Na, Jinyoung Kim, Hyunwoo J. Kim,
- Abstract要約: グループ相対政策最適化(GRPO)は、グループベースの正規化報酬を持つPPOスタイルの強化アルゴリズムを用いることで、驚くべき成功を収めた。
提案するReg-GRPO(Regressive GRPO)と難易度対応データ拡張戦略を用いて学習したビデオ大言語モデルであるDeepVideo-R1を提案する。
包括的実験の結果,DeepVideo-R1は複数のビデオ推論ベンチマークでビデオ推論性能を大幅に改善することがわかった。
- 参考スコア(独自算出の注目度): 19.913369714612234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have demonstrated the effectiveness of reinforcement learning (RL)-based post-training in enhancing the reasoning capabilities of large language models (LLMs). In particular, Group Relative Policy Optimization (GRPO) has shown impressive success by employing a PPO-style reinforcement algorithm with group-based normalized rewards. However, the application of GRPO to Video Large Language Models (Video LLMs) has been less studied. In this paper, we explore GRPO for video LLMs and identify two primary issues that impede its effective learning: (1) reliance on safeguards, and (2) the vanishing advantage problem. To mitigate these challenges, we propose DeepVideo-R1, a video large language model trained with our proposed Reg-GRPO (Regressive GRPO) and difficulty-aware data augmentation strategy. Reg-GRPO reformulates the GRPO objective as a regression task, directly predicting the advantage in GRPO. This design eliminates the need for safeguards like clipping and min functions, thereby facilitating more direct policy guidance by aligning the model with the advantage values. We also design the difficulty-aware data augmentation strategy that dynamically augments training samples at solvable difficulty levels, fostering diverse and informative reward signals. Our comprehensive experiments show that DeepVideo-R1 significantly improves video reasoning performance across multiple video reasoning benchmarks.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の推論能力を高めるために,強化学習(RL)に基づくポストトレーニングの有効性が実証されている。
特に、グループ相対政策最適化(GRPO)は、グループベースの正規化報酬を持つPPOスタイルの強化アルゴリズムを用いることで、驚くべき成功を収めた。
しかし、ビデオ大言語モデル(ビデオLLM)へのGRPOの適用は、あまり研究されていない。
本稿では,ビデオLLMのためのGRPOを探索し,その効果的な学習を妨げる2つの主要な課題を同定する。
これらの課題を軽減するため,提案したReg-GRPO(Regressive GRPO)と難易度対応データ拡張戦略を用いて学習したビデオ大言語モデルであるDeepVideo-R1を提案する。
Reg-GRPOは、GRPOの目的を回帰タスクとして再定義し、GRPOの利点を直接予測する。
この設計は、クリップングやmin関数のようなセーフガードの必要性を排除し、モデルと有利な値を整列することで、より直接的なポリシーガイダンスを容易にします。
また,難易度の高いトレーニングサンプルを動的に増強し,多種多様な報奨信号を育成する難易度データ拡張戦略を設計する。
包括的実験の結果,DeepVideo-R1は複数のビデオ推論ベンチマークでビデオ推論性能を大幅に改善することがわかった。
関連論文リスト
- Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
新たなフレームワークは、集中した思考と深い報酬の粒度による視覚的推論を強化する。
我々は,高情報密度のトークンを優先するトークン重み付け機構を採用している。
シングルチョイスからマルチチョイスQAタスクにシフトすることで、RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models [0.17265013728931003]
GRPO-LEADは数学的推論に適した新しい拡張セットである。
本研究は,(1)正確で正確な解法を奨励する長さ依存的精度報酬,(2)誤った答えを判断境界を鋭くするための明示的なペナルティメカニズム,(3)困難問題に対する学習シグナルを増幅する難易度の高い優位性再重み付け戦略を導入する。
論文 参考訳(メタデータ) (2025-04-13T19:07:45Z) - Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding [57.26400319795876]
時間的ビデオグラウンディング(TVG)は、長めのビデオ理解における中核的な課題である。
近年のLVLM(Large Vision-Language Models)は,教師付き微調整によるTVG処理の早期実現を示唆している。
強化学習によるLVLMの一般化能力を高める新しいポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T17:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。