論文の概要: MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE
- arxiv url: http://arxiv.org/abs/2507.21802v1
- Date: Tue, 29 Jul 2025 13:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.361468
- Title: MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE
- Title(参考訳): MixGRPO:Mixed ODE-SDEによるフローベースGRPO効率のアンロック
- Authors: Junzhe Li, Yutao Cui, Tao Huang, Yinping Ma, Chun Fan, Miles Yang, Zhao Zhong,
- Abstract要約: MixGRPOは、混合サンプリング戦略の柔軟性を活用する新しいフレームワークである。
MixGRPOは、人間の嗜好アライメントの多次元にわたって大きな利益をもたらし、DanceGRPOの効率と効率の両方において優れています。
- 参考スコア(独自算出の注目度): 12.479264848736092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although GRPO substantially enhances flow matching models in human preference alignment of image generation, methods such as FlowGRPO still exhibit inefficiency due to the necessity of sampling and optimizing over all denoising steps specified by the Markov Decision Process (MDP). In this paper, we propose $\textbf{MixGRPO}$, a novel framework that leverages the flexibility of mixed sampling strategies through the integration of stochastic differential equations (SDE) and ordinary differential equations (ODE). This streamlines the optimization process within the MDP to improve efficiency and boost performance. Specifically, MixGRPO introduces a sliding window mechanism, using SDE sampling and GRPO-guided optimization only within the window, while applying ODE sampling outside. This design confines sampling randomness to the time-steps within the window, thereby reducing the optimization overhead, and allowing for more focused gradient updates to accelerate convergence. Additionally, as time-steps beyond the sliding window are not involved in optimization, higher-order solvers are supported for sampling. So we present a faster variant, termed $\textbf{MixGRPO-Flash}$, which further improves training efficiency while achieving comparable performance. MixGRPO exhibits substantial gains across multiple dimensions of human preference alignment, outperforming DanceGRPO in both effectiveness and efficiency, with nearly 50% lower training time. Notably, MixGRPO-Flash further reduces training time by 71%. Codes and models are available at $\href{https://github.com/Tencent-Hunyuan/MixGRPO}{MixGRPO}$.
- Abstract(参考訳): GRPOは、画像生成の人間の選好アライメントにおけるフローマッチングモデルを大幅に強化するが、マルコフ決定プロセス(MDP)で規定される全てのデノナイジングステップをサンプリングし最適化する必要があるため、FlowGRPOのような手法は依然として非効率である。
本稿では,確率微分方程式(SDE)と常微分方程式(ODE)を統合することで,混合サンプリング戦略の柔軟性を活用する新しいフレームワークである$\textbf{MixGRPO}$を提案する。
これにより、MDP内の最適化プロセスが合理化され、効率が向上し、性能が向上する。
具体的には、SDEサンプリングとGRPO誘導最適化をウィンドウ内でのみ使用し、ODEサンプリングを外部に適用するスライディングウィンドウ機構を導入している。
この設計は、ウィンドウ内の時間ステップにサンプリングランダム性を限定し、最適化オーバーヘッドを低減し、収束を加速するためのより集中的な勾配更新を可能にする。
さらに、スライディングウィンドウ以外の時間ステップは最適化には関与しないため、サンプリングのために高次ソルバがサポートされている。
そこで我々は$\textbf{MixGRPO-Flash}$と呼ばれる高速な変種を提示する。
MixGRPOは、人間の嗜好アライメントの多次元にわたって大幅に向上し、DanceGRPOを効果と効率の両方で上回り、トレーニング時間は50%近く低下した。
特に、MixGRPO-Flashはトレーニング時間を71%短縮する。
コードとモデルは$\href{https://github.com/Tencent-Hunyuan/MixGRPO}{MixGRPO}$で入手できる。
関連論文リスト
- Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。
DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - Spectral Mixture Kernels for Bayesian Optimization [3.8601741392210434]
本稿では,スペクトル混合カーネルを組み込んだガウス過程に基づく新しいBO法を提案する。
この手法は効率と最適化性能の両方において大幅に向上する。
最適な情報を得る際の情報獲得と累積的後悔の限界を提供する。
論文 参考訳(メタデータ) (2025-05-23T02:07:26Z) - Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - $\textit{Jump Your Steps}$: Optimizing Sampling Schedule of Discrete Diffusion Models [16.738569359216438]
我々は、余分な計算コストを伴わずにCDEを最小化することにより、離散サンプリングタイムステップの割り当てを最適化する新しいアプローチである、textitJump Your Steps$(JYS)を提示する。
画像、音楽、テキスト生成に関する実験では、JYSはサンプリング品質を大幅に改善する。
論文 参考訳(メタデータ) (2024-10-10T09:44:25Z) - Covariance-Adaptive Sequential Black-box Optimization for Diffusion Targeted Generation [60.41803046775034]
ユーザのブラックボックス目標スコアのみを用いた拡散モデルを用いて,ユーザ優先のターゲット生成を行う方法を示す。
数値実験問題と目標誘導型3次元分子生成タスクの両方の実験により,より優れた目標値を得る上で,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-06-02T17:26:27Z) - Implicit Diffusion: Efficient Optimization through Stochastic Sampling [46.049117719591635]
パラメータ化拡散により暗黙的に定義された分布を最適化するアルゴリズムを提案する。
本稿では,これらのプロセスの1次最適化のための一般的なフレームワークについて紹介する。
エネルギーベースモデルのトレーニングや拡散の微調整に応用する。
論文 参考訳(メタデータ) (2024-02-08T08:00:11Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。