論文の概要: E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models
- arxiv url: http://arxiv.org/abs/2601.00423v1
- Date: Thu, 01 Jan 2026 18:27:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.439899
- Title: E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models
- Title(参考訳): E-GRPO:フローモデルのための効率的な強化学習を駆動する高エントロピーステップ
- Authors: Shengjun Zhang, Zhang Zhang, Chensheng Dai, Yueqi Duan,
- Abstract要約: 我々は,SDEサンプリングステップのエントロピーを高めるために,グループ相対ポリシー最適化のE-GRPOを提案する。
これに基づいて複数ステップ群正規化の利点を導入し、同じ統合されたSDE復号化ステップを共有するサンプル内でのグループ相対的優位性を計算する。
- 参考スコア(独自算出の注目度): 30.505448172476402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent reinforcement learning has enhanced the flow matching models on human preference alignment. While stochastic sampling enables the exploration of denoising directions, existing methods which optimize over multiple denoising steps suffer from sparse and ambiguous reward signals. We observe that the high entropy steps enable more efficient and effective exploration while the low entropy steps result in undistinguished roll-outs. To this end, we propose E-GRPO, an entropy aware Group Relative Policy Optimization to increase the entropy of SDE sampling steps. Since the integration of stochastic differential equations suffer from ambiguous reward signals due to stochasticity from multiple steps, we specifically merge consecutive low entropy steps to formulate one high entropy step for SDE sampling, while applying ODE sampling on other steps. Building upon this, we introduce multi-step group normalized advantage, which computes group-relative advantages within samples sharing the same consolidated SDE denoising step. Experimental results on different reward settings have demonstrated the effectiveness of our methods.
- Abstract(参考訳): 近年の強化学習により、人間の嗜好の整合性に関するフローマッチングモデルが強化された。
確率的サンプリングは方向指示の探索を可能にするが、複数の方向指示を最適化する既存の方法は、疎度であいまいな報奨信号に悩まされている。
高いエントロピーステップはより効率的で効果的な探索を可能にする一方で、低いエントロピーステップは不明瞭なロールアウトをもたらす。
そこで本研究では,SDEサンプリングステップのエントロピーを高めるために,グループ相対ポリシー最適化のE-GRPOを提案する。
確率微分方程式の積分は、複数のステップからの確率性によるあいまいな報酬信号に悩まされるため、SDEサンプリングのための1つの高エントロピーステップを連続的に統合し、他のステップにODEサンプリングを適用しながら、SDEサンプリングの1つの高エントロピーステップを定式化する。
これに基づいて複数ステップ群正規化の利点を導入し、同じ統合されたSDE復号化ステップを共有するサンプル内でのグループ相対的優位性を計算する。
報奨条件の異なる実験結果から,提案手法の有効性が示された。
関連論文リスト
- G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Aligning Few-Step Diffusion Models with Dense Reward Difference Learning [81.85515625591884]
Stepwise Diffusion Policy Optimization (SDPO) は、数ステップの拡散モデルに適したアライメント手法である。
SDPOは、すべての中間ステップに密集した報酬フィードバックを組み込んで、すべてのデノナイジングステップを一貫したアライメントを確保する。
SDPOは、様々なステップ構成にまたがる報酬ベースのアライメントにおいて、従来手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-18T16:57:41Z) - Adjoint Matching: Fine-tuning Flow and Diffusion Generative Models with Memoryless Stochastic Optimal Control [26.195547996552406]
我々は,反復的プロセスを通じてサンプルを生成する動的生成モデルに対して,報酬微調整を最適制御(SOC)として用いた。
提案手法は,報酬の微調整,一貫性の向上,リアリズム,人間の選好報酬モデルへの一般化など,既存の方法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-09-13T14:22:14Z) - SA-Solver: Stochastic Adams Solver for Fast Sampling of Diffusion Models [63.49229402384349]
拡散確率モデル(DPM)は生成タスクでかなりの成功を収めた。
DPM からのサンプリングは、時間を要する拡散 SDE や ODE の解法と等価であるため、改良された微分方程式解法に基づく多数の高速サンプリング手法が提案されている。
SDEを解き、高品質なデータを生成するための効率的な方法である textitSA-r を提案する。
論文 参考訳(メタデータ) (2023-09-10T12:44:54Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。