論文の概要: Pave-GRPO: Beyond Instantaneous Guidance through Principled Average Velocity Decomposition
- arxiv url: http://arxiv.org/abs/2606.01636v1
- Date: Mon, 01 Jun 2026 03:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.903615
- Title: Pave-GRPO: Beyond Instantaneous Guidance through Principled Average Velocity Decomposition
- Title(参考訳): Pave-GRPO: 原理的平均速度分解による瞬時誘導を超えて
- Authors: Pengyang Ling, Jiazi Bu, Yujie Zhou, Yibin Wang, Zhenyu Hu, Zihan Zhang, Yi Jin, Huaian Chen, Yuhang Zang,
- Abstract要約: グループ相対政策最適化は、フローベースの生成モデルと人間の嗜好を整合させる強力なパラダイムとして登場した。
原理的平均速度分解によりGRPOの目的を再構築するPave-GRPOを提案する。
- 参考スコア(独自算出の注目度): 43.9250042009344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training via Group Relative Policy Optimization (GRPO) has emerged as a powerful paradigm for aligning flow-based generative models with human preferences. However, the iterative denoising nature of flow models incurs substantial costs when generating group rollouts for policy-gradient updates, compelling existing methods to train with extremely few denoising steps. This temporal sparsity severely restricts preference optimization: reward feedback can only reach a handful of stages per trajectory, leaving the vast majority of intermediate denoising steps without direct supervision and thus compromising alignment granularity. To address this, we propose Pave-GRPO, which reformulates the GRPO objective through Principled average velocity decomposition. Rather than generating expensive high-step rollouts, we maintain efficient few-step group sampling but decompose each coarse transition into an equivalent ensemble of finer sub-trajectories spanning multiple intermediate timesteps. This propagates reward feedback to a denser set of temporal stages for more comprehensive preference alignment without additional generation cost. This design offers two benefits: (i) zero-cost horizon expansion: through the direct reuse of piece-wise group samples and their associated rewards, Pave-GRPO significantly broadens the effective optimization scope under fixed sampling budgets; and (ii) comprehensive temporal supervision: by equivalently decomposing an instantaneous velocity target into a multi-timestep ensemble, it distributes reward signals across more intermediate stages of the denoising process, enabling finer-grained and more thorough preference optimization. Extensive experiments validate that Pave-GRPO effectively advances preference alignment across different reward settings, offering comprehensive performance enhancement.
- Abstract(参考訳): グループ相対政策最適化(GRPO)によるポストトレーニングは、フローベース生成モデルと人間の嗜好を整合させる強力なパラダイムとして登場した。
しかし、フローモデルの反復的デノイングの性質は、ポリシーの段階的な更新のためにグループロールアウトを生成する際にかなりのコストを発生させ、既存の手法を極めて少ないデノイングステップでトレーニングするように説得する。
報酬フィードバックは軌道当たりのほんの数段階にしか達せず、ほとんどの中間段階は直接監督することなく、アライメントの粒度を妥協する。
そこで本研究では, GRPO の目的を原理的平均速度分解により再構成する Pave-GRPO を提案する。
高価な高段ロールアウトを生成するのではなく、効率の良い数段グループサンプリングを維持しながら、各粗い遷移を複数の中間段階にまたがるより微細なサブ軌道の等価アンサンブルに分解する。
これにより、追加生成コストを伴わずに、より包括的な選好アライメントを実現するために、より密集した時間段階に報酬フィードバックを伝達する。
このデザインには2つの利点がある。
(i)ゼロコスト地平線拡大:ピースワイズグループサンプルの直接再利用とそれに伴う報酬により、Pave-GRPOは固定サンプリング予算下での効率的な最適化範囲を著しく拡大する。
(II) 総合的な時間的監督: 即時速度目標をマルチステップアンサンブルに等価に分解することにより、復調過程のより中間的な段階に報酬信号を分散し、よりきめ細やかな選好最適化を可能にする。
大規模な実験により、Pave-GRPOは様々な報酬設定の優先順位調整を効果的に進め、総合的なパフォーマンス向上を提供する。
関連論文リスト
- TPMM-DPO: Trajectory-aware Preference-guided Model Merging for Iterative Direct Preference Optimization [0.0]
提案するTPMM-DPOは,軌道対応の嗜好誘導モデルマージ手法である。
従来の反復DPOとは対照的に、TPMM-DPOはノイズの好みによって引き起こされるエラーの蓄積を効果的に軽減する。
論文 参考訳(メタデータ) (2026-05-22T09:11:20Z) - Embedding-perturbed Exploration Preference Optimization for Flow Models [23.146684617048674]
本稿では,埋め込みレベルの摂動による最適化を実現する新しいフレームワークを提案する。
提案手法は, 試料群内における構造的, 埋め込みレベルの摂動を導入し, 安定な分散を保証している。
我々のアプローチは最先端のベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2026-05-15T09:56:40Z) - V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think [90.69263509098948]
本稿では,ELBOをベースとしたサロゲートとグループ相対ポリシー最適化アルゴリズムを統合した変分GRPOを提案する。
V-GRPOはテキストと画像の合成において最先端のパフォーマンスを実現し、MixGRPOよりも2倍のスピードアップ、DiffusionNFTより3倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-04-25T17:03:21Z) - DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment [49.45064510462232]
テキスト・画像生成のためのGRPOベースのアプローチは、スパース報酬問題に悩まされる。
textbfDenseGRPOは、人間の好みと深い報酬を一致させる新しいフレームワークである。
論文 参考訳(メタデータ) (2026-01-28T03:39:05Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - TempFlow-GRPO: When Timing Matters for GRPO in Flow Models [22.023027865557637]
本稿では,フローベース生成に固有の時間構造を捕捉し,活用する,原理的なGRPOフレームワークを提案する。
新しい革新は、基礎となる生成力学を尊重する時間的に認識された最適化をモデルに与える。
論文 参考訳(メタデータ) (2025-08-06T11:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。