論文の概要: $\text{G}^2$RPO: Granular GRPO for Precise Reward in Flow Models
- arxiv url: http://arxiv.org/abs/2510.01982v1
- Date: Thu, 02 Oct 2025 12:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.13245
- Title: $\text{G}^2$RPO: Granular GRPO for Precise Reward in Flow Models
- Title(参考訳): $\text{G}^2$RPO: フローモデルにおける精密リワードのためのグラニュラーGRPO
- Authors: Yujie Zhou, Pengyang Ling, Jiazi Bu, Yibin Wang, Yuhang Zang, Jiaqi Wang, Li Niu, Guangtao Zhai,
- Abstract要約: 本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラ-GRPO(textG2$RPO)フレームワークを提案する。
また、複数の拡散スケールで計算された利点を集約し、サンプリング方向をより包括的かつ堅牢に評価するマルチグラニュラリティ・アドバンテージ統合モジュールも導入する。
- 参考スコア(独自算出の注目度): 74.21206048155669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of online reinforcement learning (RL) into diffusion and flow models has recently emerged as a promising approach for aligning generative models with human preferences. Stochastic sampling via Stochastic Differential Equations (SDE) is employed during the denoising process to generate diverse denoising directions for RL exploration. While existing methods effectively explore potential high-value samples, they suffer from sub-optimal preference alignment due to sparse and narrow reward signals. To address these challenges, we propose a novel Granular-GRPO ($\text{G}^2$RPO ) framework that achieves precise and comprehensive reward assessments of sampling directions in reinforcement learning of flow models. Specifically, a Singular Stochastic Sampling strategy is introduced to support step-wise stochastic exploration while enforcing a high correlation between the reward and the injected noise, thereby facilitating a faithful reward for each SDE perturbation. Concurrently, to eliminate the bias inherent in fixed-granularity denoising, we introduce a Multi-Granularity Advantage Integration module that aggregates advantages computed at multiple diffusion scales, producing a more comprehensive and robust evaluation of the sampling directions. Experiments conducted on various reward models, including both in-domain and out-of-domain evaluations, demonstrate that our $\text{G}^2$RPO significantly outperforms existing flow-based GRPO baselines,highlighting its effectiveness and robustness.
- Abstract(参考訳): オンライン強化学習(RL)の拡散流モデルへの統合は、最近、生成モデルと人間の嗜好を整合させるための有望なアプローチとして現れている。
確率微分方程式 (SDE) による確率的サンプリングは, RL探索のための様々な偏極方向を生成するために, 偏極過程において用いられる。
既存の手法は潜在的高値サンプルを効果的に探索するが、スパース信号や狭い報酬信号による最適以下の選好アライメントに悩まされる。
これらの課題に対処するため,フローモデルの強化学習におけるサンプリング方向の正確かつ包括的な報酬評価を実現する新しいグラニュラーGRPO(\text{G}^2$RPO )フレームワークを提案する。
具体的には、ステップワイズ確率探索を支援するために、各SDE摂動に対する忠実な報奨を図りながら、報奨と注入雑音の高い相関を図りながら、特異確率サンプリング戦略を導入する。
同時に, 複数拡散スケールで計算された利点を集約し, サンプリング方向のより包括的で堅牢な評価を行うマルチグラニュラリティ・アドバンテージ統合モジュールを導入する。
ドメイン内評価とドメイン外評価の両方を含む様々な報奨モデルで実施した実験は、既存のフローベースGRPOベースラインを著しく上回り、その有効性と堅牢性を高めることを実証した。
関連論文リスト
- Coefficients-Preserving Sampling for Reinforcement Learning with Flow Matching [6.238027696245818]
Reinforcement Learning (RL) は拡散およびフローマッチングモデルにおける画像生成と映像生成を改善する強力な手法として登場した。
SDEに基づくサンプリングは、生成された画像に顕著なノイズアーティファクトを導入します。
提案手法であるCoefficients-Preserving Sampling (CPS)は,これらのノイズアーティファクトを除去する。
論文 参考訳(メタデータ) (2025-09-07T07:25:00Z) - Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering [18.543769006014383]
拡散モデルはしばしば、サンプリング軌跡に固有の変化のために、一貫性のないサンプル品質を示す。
CFG-リジェクション(CFG-Rejection)は,デノナイジングプロセスの初期段階において,低品質なサンプルをフィルタリングする効率的なプラグアンドプレイ戦略である。
画像生成におけるCFG-Rejectionの有効性を広範囲な実験により検証する。
論文 参考訳(メタデータ) (2025-05-29T11:08:24Z) - Prior-Guided Diffusion Planning for Offline Reinforcement Learning [4.760537994346813]
Prior Guidance (PG) は、標準ガウスの拡散モデルを置き換える新しいサンプリングフレームワークである。
PGは拡散モデル自体の費用対効果を伴わない高値軌道を直接生成する。
我々は,潜時空間における行動規則化を適用した効率的なトレーニング戦略を提案し,PGが多種多種多種多種多種多種多様オフラインRLベンチマークにおいて最先端拡散ポリシーやプランナーより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2025-05-16T05:39:02Z) - Inference-Time Alignment of Diffusion Models with Direct Noise Optimization [45.77751895345154]
拡散モデルのサンプリング過程において, 直接雑音最適化 (DNO) と呼ばれる新しいアライメント手法を提案する。
設計上、DNOは推論時に動作し、チューニングが不要で、即席で、アライメントは世代毎にオンラインに行われる。
我々は,いくつかの重要な報酬関数について広範な実験を行い,提案したDNOアプローチが,適切な時間予算で,最先端の報酬スコアを達成できることを実証した。
論文 参考訳(メタデータ) (2024-05-29T08:39:39Z) - Improved off-policy training of diffusion samplers [93.66433483772055]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。
シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。
我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-07T18:51:49Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Optimal Budgeted Rejection Sampling for Generative Models [54.050498411883495]
判別器を用いた生成モデルの性能向上のために, 還元サンプリング法が提案されている。
提案手法は,まず,最適に最適である最適予算削減サンプリング方式を提案する。
第2に,モデル全体の性能を高めるために,サンプリング方式をトレーニング手順に組み込んだエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2023-11-01T11:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。