論文の概要: Advantage Weighted Matching: Aligning RL with Pretraining in Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.25050v1
- Date: Mon, 29 Sep 2025 17:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.149115
- Title: Advantage Weighted Matching: Aligning RL with Pretraining in Diffusion Models
- Title(参考訳): アドバンテージ重み付きマッチング:拡散モデルにおける事前学習を考慮したRLの調整
- Authors: Shuchen Xue, Chongjian Ge, Shilong Zhang, Yichen Li, Zhi-Ming Ma,
- Abstract要約: 拡散の政策段階的手法である textbfAdvantage Weighted Matching (AWM) を導入する。
AWMは、事前学習と同一のモデリング目標を維持しながら、高逆サンプルの影響を高め、低逆サンプルを抑制する。
これは事前学習とRLを概念的かつ実践的に統一し、政策次数理論と整合性を持ち、分散を減少させ、より高速な収束をもたらす。
- 参考スコア(独自算出の注目度): 35.36024202299119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has emerged as a central paradigm for advancing Large Language Models (LLMs), where pre-training and RL post-training share the same log-likelihood formulation. In contrast, recent RL approaches for diffusion models, most notably Denoising Diffusion Policy Optimization (DDPO), optimize an objective different from the pretraining objectives--score/flow matching loss. In this work, we establish a novel theoretical analysis: DDPO is an implicit form of score/flow matching with noisy targets, which increases variance and slows convergence. Building on this analysis, we introduce \textbf{Advantage Weighted Matching (AWM)}, a policy-gradient method for diffusion. It uses the same score/flow-matching loss as pretraining to obtain a lower-variance objective and reweights each sample by its advantage. In effect, AWM raises the influence of high-reward samples and suppresses low-reward ones while keeping the modeling objective identical to pretraining. This unifies pretraining and RL conceptually and practically, is consistent with policy-gradient theory, reduces variance, and yields faster convergence. This simple yet effective design yields substantial benefits: on GenEval, OCR, and PickScore benchmarks, AWM delivers up to a $24\times$ speedup over Flow-GRPO (which builds on DDPO), when applied to Stable Diffusion 3.5 Medium and FLUX, without compromising generation quality. Code is available at https://github.com/scxue/advantage_weighted_matching.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は大規模言語モデル(LLM)を進化させる中心的なパラダイムとして登場し、事前学習とRLポストトレーニングは同じログライクな定式化を共有している。
対照的に、拡散モデルに対する最近のRLアプローチ、特にDDPO(Denoising Diffusion Policy Optimization)は、事前学習対象とは異なる目標であるスコア/フローマッチング損失を最適化している。
DDPOは雑音のあるターゲットとスコア/フローマッチングの暗黙の形式であり、分散を増大させ収束を遅くする。
この分析に基づいて,拡散の政策段階的手法であるtextbf{Advantage Weighted Matching (AWM)を導入する。
プリトレーニングと同じスコア/フローマッチング損失を使用して、低分散目標を取得し、その利点によって各サンプルを再重み付けする。
実際、AWMは、事前学習と同一のモデリング目標を維持しながら、高逆サンプルの影響を高め、低逆サンプルを抑制する。
これは事前学習とRLを概念的かつ実践的に統一し、政策次数理論と整合性を持ち、分散を減少させ、より高速な収束をもたらす。
このシンプルで効果的な設計は、GenEval、OCR、およびPickScoreのベンチマークにおいて、AWMは、生成品質を損なうことなく、安定したDiffusion 3.5 MediumおよびFLUXに適用した場合、Flow-GRPO(DDPO上に構築される)よりも24\times$のスピードアップを提供する。
コードはhttps://github.com/scxue/advantage_weighted_matchingで入手できる。
関連論文リスト
- DiffusionNFT: Online Diffusion Reinforcement with Forward Process [99.94852379720153]
Diffusion Negative-aware FineTuning (DiffusionNFT) は、フローマッチングを通じて前方プロセス上で直接拡散モデルを最適化する新しいオンラインRLパラダイムである。
DiffusionNFTは、CFGフリーのFlowGRPOよりも25倍効率が高い。
論文 参考訳(メタデータ) (2025-09-19T16:09:33Z) - FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - SPIRE: Conditional Personalization for Federated Diffusion Generative Models [7.8583640700306585]
Shared Backbone Personal Identity Representation Embeddings (SPIRE)は、FLで条件付き生成としてクライアント拡散ベースの生成をキャストするフレームワークである。
SPIREは、ネットワークを(i)人口レベルのスコア関数を学習する高容量なグローバルバックボーンと、(ii)ローカルデータ統計を符号化する軽量で学習可能なクライアント埋め込みに分解する。
我々の分析は、クライアントの埋め込みが共有スコアネットワークをパーソナライズするバイアスとしてどのように振舞うかを示唆している。
論文 参考訳(メタデータ) (2025-06-14T01:40:31Z) - Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Generative Modeling with Flow-Guided Density Ratio Learning [12.192867460641835]
Flow-Guided Density Ratio Learning (FDRL)は、生成モデルに対するシンプルでスケーラブルなアプローチである。
我々は,FDRLが128時間128ドルの高次元の画像を生成するとともに,既存の勾配流ベースラインを定量的なベンチマークで上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-07T07:55:52Z) - Stable Target Field for Reduced Variance Score Estimation in Diffusion
Models [5.9115407007859755]
拡散モデルは、固定された前方拡散過程を反転させてサンプルを生成する。
このような分散の源泉は、中間雑音分散スケールの取り扱いにあると論じる。
より安定したトレーニングターゲットとして重み付けされた条件スコアを計算するために使用する参照バッチを組み込むことにより、この問題を修復することを提案する。
論文 参考訳(メタデータ) (2023-02-01T18:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。