2026-04-25 Daily Report: V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think

V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think

著者 Bingda Tang, Yuhui Zhang, Xiaohan Wang, Jiayuan Mao, Ludwig Schmidt, Serena Yeung-Levy

所属 Stanford University / Tsinghua University / Amazon / University of Pennsylvania

カテゴリ Method / Policy Optimization / Group relative policy optimization, Application / Image Synthesis / Text-to-image synthesis performance, Evaluation / Model Efficiency / Speedup comparison with baseline methods

ライセンス CC BY 4.0

Abstractの概要

本論文は、デノイジング生成モデルのオンライン強化学習のために、ELBOベースの尤度代理関数をGroup Relative Policy Optimization（GRPO）アルゴリズムに統合するVariational GRPO（V-GRPO）を提案している。著者らは、視覚生成におけるELBOベースの代理関数の既知の不安定性に対処するため、分散削減技術（グループ共有タイムステップ-ノイズペア、層別タイムステップサンプリング、適応的損失重み付け）および勾配制御戦略（重要度比クリッピング、KLペナルティ、アドバンテージソフトクリッピング）を導入している。本手法はマルチステップ生成をアトミックなアクションとして扱い、先行研究で用いられていたサンプリング軌跡上のMDP定式化を回避している。FLUX.1-devおよびSD 3.5 Mでの実験により、V-GRPOはMDPベースのベースラインに対して大幅な学習高速化を実現しつつ、最先端またはそれに匹敵するテキスト-画像整合性を達成することが示された。

新規性

主な新規性は、視覚生成において性能が劣ると報告されていたELBOベースの代理関数が、特定の分散削減技術と勾配制御技術の組み合わせによって安定化されると、MDPベースのオンライン強化学習アプローチと同等以上の性能を発揮できることを実証した点にある。また、生成プロセスを逐次的なMDP遷移に分解するのではなく、GRPO内でアトミックなアクションとして扱うことで、最適化をサンプリングプロセスから分離し、ロールアウト時に高次のODEソルバーの使用を可能にしている点も特徴的である。

成果

FLUX.1-devにおいて、V-GRPOは300イテレーション時点でHPSv2.1、PickScore、ImageReward、UnifiedRewardの全指標でMixGRPOやBranchGRPOを含む全比較ベースラインを上回り、半分のイテレーション（MixGRPOの300に対して150）で同等の報酬に収束した。SD 3.5 Mでは、V-GRPOはGenEvalおよびOCRでDiffusionNFTと同等の性能を達成しつつ、モデルベースの指標（CLIPScore、HPSv2.1、Aesthetics）を改善または同等に維持し、勾配ステップ数を約3分の1（1.7Kに対して580）に削減し、関数評価コストも大幅に低減した。アブレーション実験により、提案された分散削減技術が安定性に不可欠であること、また異なる勾配制御戦略が異なる学習レジームに適していることが確認された。

論文の注目点

V-GRPOは、先行研究で用いられていたMDPベースの軌跡最適化を、GRPO内でのモデル対数尤度に対するELBOベースの代理関数に置き換え、マルチステップ生成をアトミックなアクションとして扱うことで最適化をサンプリングプロセスから分離している。
本手法の実践的貢献は、分散削減のためのグループ共有タイムステップ-ノイズペア、層別タイムステップサンプリング、適応的損失重み付けと、学習レジームに応じた重要度比クリッピング、KLペナルティ、アドバンテージソフトクリッピングの選択的使用を組み合わせた安定化レシピである。
実験的に、V-GRPOはFLUX.1-devにおいて比較手法中で最良のマルチ報酬結果を達成し、SD 3.5 MではDiffusionNFTと同等の性能を示しつつ、MixGRPOに対して2倍、DiffusionNFTに対して学習ステップ数で3倍の高速化を実現した。

参考リンク

arXiv: https://arxiv.org/abs/2604.23380v1
Fugu-MT: https://fugumt.com/fugumt/paper_check/2604.23380v1
GitHub: https://github.com/tang-bd/v-grpo

GitHub

注目論文デイリーレポート

V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think

Abstractの概要

新規性

成果

論文の注目点

参考リンク