論文の概要: MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE
- arxiv url: http://arxiv.org/abs/2507.21802v1
- Date: Tue, 29 Jul 2025 13:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.361468
- Title: MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE
- Title(参考訳): MixGRPO:Mixed ODE-SDEによるフローベースGRPO効率のアンロック
- Authors: Junzhe Li, Yutao Cui, Tao Huang, Yinping Ma, Chun Fan, Miles Yang, Zhao Zhong,
- Abstract要約: MixGRPOは、混合サンプリング戦略の柔軟性を活用する新しいフレームワークである。
MixGRPOは、人間の嗜好アライメントの多次元にわたって大きな利益をもたらし、DanceGRPOの効率と効率の両方において優れています。
- 参考スコア(独自算出の注目度): 12.479264848736092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although GRPO substantially enhances flow matching models in human preference alignment of image generation, methods such as FlowGRPO still exhibit inefficiency due to the necessity of sampling and optimizing over all denoising steps specified by the Markov Decision Process (MDP). In this paper, we propose $\textbf{MixGRPO}$, a novel framework that leverages the flexibility of mixed sampling strategies through the integration of stochastic differential equations (SDE) and ordinary differential equations (ODE). This streamlines the optimization process within the MDP to improve efficiency and boost performance. Specifically, MixGRPO introduces a sliding window mechanism, using SDE sampling and GRPO-guided optimization only within the window, while applying ODE sampling outside. This design confines sampling randomness to the time-steps within the window, thereby reducing the optimization overhead, and allowing for more focused gradient updates to accelerate convergence. Additionally, as time-steps beyond the sliding window are not involved in optimization, higher-order solvers are supported for sampling. So we present a faster variant, termed $\textbf{MixGRPO-Flash}$, which further improves training efficiency while achieving comparable performance. MixGRPO exhibits substantial gains across multiple dimensions of human preference alignment, outperforming DanceGRPO in both effectiveness and efficiency, with nearly 50% lower training time. Notably, MixGRPO-Flash further reduces training time by 71%. Codes and models are available at $\href{https://github.com/Tencent-Hunyuan/MixGRPO}{MixGRPO}$.
- Abstract(参考訳): GRPOは、画像生成の人間の選好アライメントにおけるフローマッチングモデルを大幅に強化するが、マルコフ決定プロセス(MDP)で規定される全てのデノナイジングステップをサンプリングし最適化する必要があるため、FlowGRPOのような手法は依然として非効率である。
本稿では,確率微分方程式(SDE)と常微分方程式(ODE)を統合することで,混合サンプリング戦略の柔軟性を活用する新しいフレームワークである$\textbf{MixGRPO}$を提案する。
これにより、MDP内の最適化プロセスが合理化され、効率が向上し、性能が向上する。
具体的には、SDEサンプリングとGRPO誘導最適化をウィンドウ内でのみ使用し、ODEサンプリングを外部に適用するスライディングウィンドウ機構を導入している。
この設計は、ウィンドウ内の時間ステップにサンプリングランダム性を限定し、最適化オーバーヘッドを低減し、収束を加速するためのより集中的な勾配更新を可能にする。
さらに、スライディングウィンドウ以外の時間ステップは最適化には関与しないため、サンプリングのために高次ソルバがサポートされている。
そこで我々は$\textbf{MixGRPO-Flash}$と呼ばれる高速な変種を提示する。
MixGRPOは、人間の嗜好アライメントの多次元にわたって大幅に向上し、DanceGRPOを効果と効率の両方で上回り、トレーニング時間は50%近く低下した。
特に、MixGRPO-Flashはトレーニング時間を71%短縮する。
コードとモデルは$\href{https://github.com/Tencent-Hunyuan/MixGRPO}{MixGRPO}$で入手できる。
関連論文リスト
- Spectral Mixture Kernels for Bayesian Optimization [3.8601741392210434]
本稿では,スペクトル混合カーネルを組み込んだガウス過程に基づく新しいBO法を提案する。
この手法は効率と最適化性能の両方において大幅に向上する。
最適な情報を得る際の情報獲得と累積的後悔の限界を提供する。
論文 参考訳(メタデータ) (2025-05-23T02:07:26Z) - Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - $\textit{Jump Your Steps}$: Optimizing Sampling Schedule of Discrete Diffusion Models [16.738569359216438]
我々は、余分な計算コストを伴わずにCDEを最小化することにより、離散サンプリングタイムステップの割り当てを最適化する新しいアプローチである、textitJump Your Steps$(JYS)を提示する。
画像、音楽、テキスト生成に関する実験では、JYSはサンプリング品質を大幅に改善する。
論文 参考訳(メタデータ) (2024-10-10T09:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。