論文の概要: Growing with the Generator: Self-paced GRPO for Video Generation
- arxiv url: http://arxiv.org/abs/2511.19356v1
- Date: Mon, 24 Nov 2025 17:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.355156
- Title: Growing with the Generator: Self-paced GRPO for Video Generation
- Title(参考訳): ジェネレータで成長するビデオ生成のためのセルフペーストGRPO
- Authors: Rui Li, Yuanzhi Liang, Ziqi Ni, Haibing Huang, Chi Zhang, Xuelong Li,
- Abstract要約: グループ相対政策最適化は、ビデオ生成後のモデルのための強力な強化学習パラダイムとして登場した。
本稿では,報奨フィードバックをジェネレータと共進化させる能力を考慮したGRPOフレームワークであるSelf-Paced GRPOを提案する。
生成品質が向上するにつれて、粗い視覚的忠実度から時間的コヒーレンス、微粒なテキスト・ビデオ・セマンティックアライメントに重点を移すプログレッシブ報酬機構を導入する。
- 参考スコア(独自算出の注目度): 45.5073437581357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) has emerged as a powerful reinforcement learning paradigm for post-training video generation models. However, existing GRPO pipelines rely on static, fixed-capacity reward models whose evaluation behavior is frozen during training. Such rigid rewards introduce distributional bias, saturate quickly as the generator improves, and ultimately limit the stability and effectiveness of reinforcement-based alignment. We propose Self-Paced GRPO, a competence-aware GRPO framework in which reward feedback co-evolves with the generator. Our method introduces a progressive reward mechanism that automatically shifts its emphasis from coarse visual fidelity to temporal coherence and fine-grained text-video semantic alignment as generation quality increases. This self-paced curriculum alleviates reward-policy mismatch, mitigates reward exploitation, and yields more stable optimization. Experiments on VBench across multiple video generation backbones demonstrate consistent improvements in both visual quality and semantic alignment over GRPO baselines with static rewards, validating the effectiveness and generality of Self-Paced GRPO.
- Abstract(参考訳): Group Relative Policy Optimization (GRPO) は、ビデオ生成後モデルのための強力な強化学習パラダイムとして登場した。
しかし、既存のGRPOパイプラインは、トレーニング中に評価動作が凍結された静的な固定容量報酬モデルに依存している。
このような厳密な報酬は分布バイアスを導入し、発電機が改良するにつれて急速に飽和し、最終的に強化ベースのアライメントの安定性と有効性を制限する。
本稿では,報奨フィードバックをジェネレータと共進化させる能力を考慮したGRPOフレームワークであるSelf-Paced GRPOを提案する。
生成品質が向上するにつれて、粗い視覚的忠実度から時間的コヒーレンス、微粒なテキスト・ビデオ・セマンティックアライメントに自動的に重点を移すプログレッシブ報酬機構を導入する。
このセルフペースのカリキュラムは、報酬と政治のミスマッチを緩和し、報酬の搾取を緩和し、より安定した最適化をもたらす。
複数のビデオ生成バックボーンにまたがるVBenchの実験では、静的報酬を伴うGRPOベースラインの視覚的品質とセマンティックアライメントが一貫した改善を示し、Self-Paced GRPOの有効性と汎用性を検証する。
関連論文リスト
- iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - Adaptive-Boundary-Clipping GRPO: Ensuring Bounded Ratios for Stable and Generalizable Training [7.404779700134294]
Adaptive-Boundary-Clipping GRPO (ABC-GRPO) はオリジナルのGRPOフレームワークの非対称かつ適応的な改良である。
ABC-GRPOは数学的推論タスクにおける標準GRPOよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2026-01-07T13:04:52Z) - Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - MURPHY: Multi-Turn GRPO for Self Correcting Code Generation [55.66642560374686]
Murphyは、トレーニング中に反復的な自己補正を導入することでGRPOを拡張するマルチターン反射最適化フレームワークである。
Murphy は GRPO に対して 8% の相対的な利得を達成し,同様の計算予算で性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2025-11-11T05:03:22Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models [57.304411396229035]
BranchGRPOは、ロールアウトプロセスを分岐木に再構成する手法である。
HPDv2.1イメージアライメントでは、BranchGRPOはDanceGRPOよりも最大でtextbf16%のアライメントスコアを改善する。
ハイブリッド版であるBranchGRPO-MixはDanceGRPOよりも4.7倍の速度でトレーニングを加速する。
論文 参考訳(メタデータ) (2025-09-07T12:53:06Z) - TempFlow-GRPO: When Timing Matters for GRPO in Flow Models [22.023027865557637]
本稿では,フローベース生成に固有の時間構造を捕捉し,活用する,原理的なGRPOフレームワークを提案する。
新しい革新は、基礎となる生成力学を尊重する時間的に認識された最適化をモデルに与える。
論文 参考訳(メタデータ) (2025-08-06T11:10:39Z) - Hybrid Group Relative Policy Optimization: A Multi-Sample Approach to Enhancing Policy Optimization [0.0]
Hybrid Group Relative Policy Optimization (Hybrid GRPO)は強化学習フレームワークである。
価値関数に基づく学習の安定性を維持しつつ、実証的なマルチサンプル動作評価を取り入れている。
構造化された経験的サンプリングと強化学習安定性機構を統合することで、Hybrid GRPOは自律ロボット工学、金融モデリング、AI駆動制御システムに潜在的に応用できる。
論文 参考訳(メタデータ) (2025-01-30T21:04:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。