論文の概要: DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO
- arxiv url: http://arxiv.org/abs/2506.07464v4
- Date: Fri, 31 Oct 2025 12:13:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 13:41:53.39753
- Title: DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO
- Title(参考訳): DeepVideo-R1:Difficulty-Aware Regressive GRPOによるビデオ強化ファインチューニング
- Authors: Jinyoung Park, Jeehye Na, Jinyoung Kim, Hyunwoo J. Kim,
- Abstract要約: グループ相対政策最適化は、群正規化報酬を持つPPOスタイルの強化アルゴリズムを用いて、驚くべき成功を収めた。
本稿では、GRPOを探索し、効果的な学習を悪化させる2つの問題を特定する。
本稿では,Reg-GRPOで訓練されたビデオ大言語モデルであるDeepVideo-R1を提案する。
- 参考スコア(独自算出の注目度): 37.07375927420007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have demonstrated the effectiveness of reinforcement learning (RL)-based post-training for enhancing the reasoning capabilities of large language models (LLMs). In particular, Group Relative Policy Optimization (GRPO) has shown impressive success using a PPO-style reinforcement algorithm with group-normalized rewards. However, the effectiveness of GRPO in Video Large Language Models (VideoLLMs) has still been less studyed. In this paper, we explore GRPO and identify two problems that deteriorate the effective learning: (1) reliance on safeguards, and (2) vanishing advantage. To mitigate these challenges, we propose DeepVideo-R1, a video large language model trained with Reg-GRPO (Regressive GRPO) and difficulty-aware data augmentation. Reg-GRPO reformulates the GRPO loss function into a regression task that directly predicts the advantage in GRPO, eliminating the need for safeguards such as the clipping and min functions. It directly aligns the model with advantages, providing guidance to prefer better ones. The difficulty-aware data augmentation strategy augments input prompts/videos to locate the difficulty of samples at solvable difficulty levels, enabling diverse reward signals. Our experimental results show that our approach significantly improves video reasoning performance across multiple benchmarks.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の推論能力を高めるための強化学習(RL)によるポストトレーニングの有効性が実証されている。
特に、グループ正規化報酬を伴うPPO型強化アルゴリズムを用いて、グループ相対政策最適化(GRPO)は印象的な成功を収めている。
しかし,ビデオ大言語モデル(VideoLLMs)におけるGRPOの有効性は未だ研究されていない。
本稿では,GRPOを探索し,有効学習を損なう2つの問題点を同定する。
これらの課題を軽減するために,Reg-GRPO(Regressive GRPO)と難易度対応データ拡張を用いてトレーニングされたビデオ大言語モデルであるDeepVideo-R1を提案する。
Reg-GRPOはGRPOの損失関数を回帰タスクに再構成し、GRPOの利点を直接予測し、クリッピングやmin関数のようなセーフガードを不要にする。
モデルを直接アドバンテージと整合させ、より良いものを好むためのガイダンスを提供する。
難易度データ拡張戦略は、サンプルの難易度を解決可能な難易度で見つけるための入力プロンプト/ビデオを強化し、多様な報奨信号を可能にする。
実験結果から,本手法は複数のベンチマークでビデオ推論性能を大幅に向上することが示された。
関連論文リスト
- EDGE-GRPO: Entropy-Driven GRPO with Guided Error Correction for Advantage Diversity [7.818698554631196]
グループ相対政策最適化 (GRPO) アルゴリズムはスパース報酬規則に依存しており、有利な崩壊問題を引き起こす。
我々は,textbfEntropy-textbfDriven Advantage と textbfGuided textbfError Correction を採用したEDGE-GRPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-29T14:23:58Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
新たなフレームワークは、集中した思考と深い報酬の粒度による視覚的推論を強化する。
我々は,高情報密度のトークンを優先するトークン重み付け機構を採用している。
シングルチョイスからマルチチョイスQAタスクにシフトすることで、RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models [0.17265013728931003]
GRPO-LEADは数学的推論に適した新しい拡張セットである。
本研究は,(1)正確で正確な解法を奨励する長さ依存的精度報酬,(2)誤った答えを判断境界を鋭くするための明示的なペナルティメカニズム,(3)困難問題に対する学習シグナルを増幅する難易度の高い優位性再重み付け戦略を導入する。
論文 参考訳(メタデータ) (2025-04-13T19:07:45Z) - Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding [57.26400319795876]
時間的ビデオグラウンディング(TVG)は、長めのビデオ理解における中核的な課題である。
近年のLVLM(Large Vision-Language Models)は,教師付き微調整によるTVG処理の早期実現を示唆している。
強化学習によるLVLMの一般化能力を高める新しいポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T17:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。