論文の概要: Expand and Prune: Maximizing Trajectory Diversity for Effective GRPO in Generative Models
- arxiv url: http://arxiv.org/abs/2512.15347v1
- Date: Wed, 17 Dec 2025 11:44:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.967863
- Title: Expand and Prune: Maximizing Trajectory Diversity for Effective GRPO in Generative Models
- Title(参考訳): 拡張とプルーン:生成モデルにおける効果的なGRPOのための軌道の多様性の最大化
- Authors: Shiran Ge, Chenyi Huang, Yuang Ai, Qihang Fan, Huaibo Huang, Ran He,
- Abstract要約: グループ相対政策最適化は、生成モデルを調整するための強力なテクニックである。
しかし、その効果は、大規模なグループサイズと禁止的な計算コストの衝突によってボトルネックとなる。
提案するPro-GRPOは,遅延特徴に基づく軌道プルーニングをサンプリングプロセスに統合する新しい動的フレームワークである。
- 参考スコア(独自算出の注目度): 37.48289959306949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) is a powerful technique for aligning generative models, but its effectiveness is bottlenecked by the conflict between large group sizes and prohibitive computational costs. In this work, we investigate the trade-off through empirical studies, yielding two key observations. First, we discover the reward clustering phenomenon in which many trajectories collapse toward the group-mean reward, offering limited optimization value. Second, we design a heuristic strategy named Optimal Variance Filtering (OVF), and verify that a high-variance subset of trajectories, selected by OVF can outperform the larger, unfiltered group. However, this static, post-sampling OVF approach still necessitates critical computational overhead, as it performs unnecessary sampling for trajectories that are ultimately discarded. To resolve this, we propose Pro-GRPO (Proactive GRPO), a novel dynamic framework that integrates latent feature-based trajectory pruning into the sampling process. Through the early termination of reward-clustered trajectories, Pro-GRPO reduces computational overhead. Leveraging its efficiency, Pro-GRPO employs an "Expand-and-Prune" strategy. This strategy first expands the size of initial sampling group to maximize trajectory diversity, then it applies multi-step OVF to the latents, avoiding prohibitive computational costs. Extensive experiments on both diffusion-based and flow-based models demonstrate the generality and effectiveness of our Pro-GRPO framework.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は、生成モデルを調整する強力な手法であるが、その効果は、大規模なグループサイズと禁制的な計算コストの衝突によってボトルネックとなる。
本研究では,実証的研究を通じてトレードオフを調査し,二つの重要な観察結果を得た。
まず、多くの軌道がグループ平均報酬に向かって崩壊する報酬クラスタリング現象を発見し、限られた最適化値を提供する。
第二に、最適分散フィルタリング(OVF)と呼ばれるヒューリスティックな戦略を設計し、OVFが選択したトラジェクトリの高分散部分集合が、より大きく、未フィルタリングなグループより優れていることを検証する。
しかし、この静的でサンプリング後のOVFアプローチは、最終的に破棄される軌跡に対する不要なサンプリングを実行するため、依然として重要な計算オーバーヘッドを必要とする。
この問題を解決するために,提案するPro-GRPO(Proactive GRPO)を提案する。
報酬クラスター軌道の早期終了により、Pro-GRPOは計算オーバーヘッドを低減する。
効率性を活用して、Pro-GRPOは"Expand-and-Prune"戦略を採用している。
この戦略はまず初期サンプリンググループのサイズを拡大し、軌道の多様性を最大化し、次に複数のステップのOVFを潜伏者に適用し、計算コストの禁止を回避する。
拡散に基づくモデルと流れに基づくモデルの両方に関する大規模な実験は、我々のPro-GRPOフレームワークの一般化と有効性を示している。
関連論文リスト
- DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - Beyond Reward Margin: Rethinking and Resolving Likelihood Displacement in Diffusion Models via Video Generation [6.597818816347323]
直接選好最適化は、選択されたサンプルと拒否されたサンプルを区別することにより、生成出力を人間の選好に合わせることを目的としている。
DPOの限界は、トレーニング中に選択されたサンプルの確率がパラドックス的に減少する確率変位である。
本稿では,Adaptive Rejection Scaling (ARS) と Implicit Preference Regularization (IPR) を組み合わせた新しいソリューションである Policy-Guided DPO を紹介する。
実験の結果,PG-DPOは測定値と定性評価の両方において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-11-24T12:37:49Z) - Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation [29.015994347609936]
Group Relative Policy Optimization (GRPO)は、フローマッチングベースのテキスト・ツー・イメージ(T2I)生成に強い可能性を示している。
我々は、最適化のパラダイムをステップレベルからチャンクレベルにシフトすることで、これらの問題を効果的に軽減できると主張している。
Chunk-GRPOは、T2I生成のための最初のチャンクレベルGRPOベースのアプローチである。
論文 参考訳(メタデータ) (2025-10-24T15:50:36Z) - Reinforcing Diffusion Models by Direct Group Preference Optimization [19.195805549362074]
グループ選好最適化(DGPO)は、グループ内のサンプルの相対情報を利用するグループレベルの選好から直接学習する。
その結果、DGPOは既存の最先端手法の約20倍の速度でトレーニングを行い、ドメイン内および外部メトリクスの報酬よりも優れたパフォーマンスを示した。
論文 参考訳(メタデータ) (2025-10-09T16:40:43Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。