論文の概要: Growing with the Generator: Self-paced GRPO for Video Generation
- arxiv url: http://arxiv.org/abs/2511.19356v1
- Date: Mon, 24 Nov 2025 17:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.355156
- Title: Growing with the Generator: Self-paced GRPO for Video Generation
- Title(参考訳): ジェネレータで成長するビデオ生成のためのセルフペーストGRPO
- Authors: Rui Li, Yuanzhi Liang, Ziqi Ni, Haibing Huang, Chi Zhang, Xuelong Li,
- Abstract要約: グループ相対政策最適化は、ビデオ生成後のモデルのための強力な強化学習パラダイムとして登場した。
本稿では,報奨フィードバックをジェネレータと共進化させる能力を考慮したGRPOフレームワークであるSelf-Paced GRPOを提案する。
生成品質が向上するにつれて、粗い視覚的忠実度から時間的コヒーレンス、微粒なテキスト・ビデオ・セマンティックアライメントに重点を移すプログレッシブ報酬機構を導入する。
- 参考スコア(独自算出の注目度): 45.5073437581357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) has emerged as a powerful reinforcement learning paradigm for post-training video generation models. However, existing GRPO pipelines rely on static, fixed-capacity reward models whose evaluation behavior is frozen during training. Such rigid rewards introduce distributional bias, saturate quickly as the generator improves, and ultimately limit the stability and effectiveness of reinforcement-based alignment. We propose Self-Paced GRPO, a competence-aware GRPO framework in which reward feedback co-evolves with the generator. Our method introduces a progressive reward mechanism that automatically shifts its emphasis from coarse visual fidelity to temporal coherence and fine-grained text-video semantic alignment as generation quality increases. This self-paced curriculum alleviates reward-policy mismatch, mitigates reward exploitation, and yields more stable optimization. Experiments on VBench across multiple video generation backbones demonstrate consistent improvements in both visual quality and semantic alignment over GRPO baselines with static rewards, validating the effectiveness and generality of Self-Paced GRPO.
- Abstract(参考訳): Group Relative Policy Optimization (GRPO) は、ビデオ生成後モデルのための強力な強化学習パラダイムとして登場した。
しかし、既存のGRPOパイプラインは、トレーニング中に評価動作が凍結された静的な固定容量報酬モデルに依存している。
このような厳密な報酬は分布バイアスを導入し、発電機が改良するにつれて急速に飽和し、最終的に強化ベースのアライメントの安定性と有効性を制限する。
本稿では,報奨フィードバックをジェネレータと共進化させる能力を考慮したGRPOフレームワークであるSelf-Paced GRPOを提案する。
生成品質が向上するにつれて、粗い視覚的忠実度から時間的コヒーレンス、微粒なテキスト・ビデオ・セマンティックアライメントに自動的に重点を移すプログレッシブ報酬機構を導入する。
このセルフペースのカリキュラムは、報酬と政治のミスマッチを緩和し、報酬の搾取を緩和し、より安定した最適化をもたらす。
複数のビデオ生成バックボーンにまたがるVBenchの実験では、静的報酬を伴うGRPOベースラインの視覚的品質とセマンティックアライメントが一貫した改善を示し、Self-Paced GRPOの有効性と汎用性を検証する。
関連論文リスト
- MURPHY: Multi-Turn GRPO for Self Correcting Code Generation [55.66642560374686]
Murphyは、トレーニング中に反復的な自己補正を導入することでGRPOを拡張するマルチターン反射最適化フレームワークである。
Murphy は GRPO に対して 8% の相対的な利得を達成し,同様の計算予算で性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2025-11-11T05:03:22Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models [57.304411396229035]
BranchGRPOは、ロールアウトプロセスを分岐木に再構成する手法である。
HPDv2.1イメージアライメントでは、BranchGRPOはDanceGRPOよりも最大でtextbf16%のアライメントスコアを改善する。
ハイブリッド版であるBranchGRPO-MixはDanceGRPOよりも4.7倍の速度でトレーニングを加速する。
論文 参考訳(メタデータ) (2025-09-07T12:53:06Z) - TempFlow-GRPO: When Timing Matters for GRPO in Flow Models [22.023027865557637]
本稿では,フローベース生成に固有の時間構造を捕捉し,活用する,原理的なGRPOフレームワークを提案する。
新しい革新は、基礎となる生成力学を尊重する時間的に認識された最適化をモデルに与える。
論文 参考訳(メタデータ) (2025-08-06T11:10:39Z) - Hybrid Group Relative Policy Optimization: A Multi-Sample Approach to Enhancing Policy Optimization [0.0]
Hybrid Group Relative Policy Optimization (Hybrid GRPO)は強化学習フレームワークである。
価値関数に基づく学習の安定性を維持しつつ、実証的なマルチサンプル動作評価を取り入れている。
構造化された経験的サンプリングと強化学習安定性機構を統合することで、Hybrid GRPOは自律ロボット工学、金融モデリング、AI駆動制御システムに潜在的に応用できる。
論文 参考訳(メタデータ) (2025-01-30T21:04:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。