論文の概要: DiffusionNFT: Online Diffusion Reinforcement with Forward Process
- arxiv url: http://arxiv.org/abs/2509.16117v1
- Date: Fri, 19 Sep 2025 16:09:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.240125
- Title: DiffusionNFT: Online Diffusion Reinforcement with Forward Process
- Title(参考訳): DiffusionNFT: フォワードプロセスによるオンライン拡散強化
- Authors: Kaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, Ming-Yu Liu,
- Abstract要約: Diffusion Negative-aware FineTuning (DiffusionNFT) は、フローマッチングを通じて前方プロセス上で直接拡散モデルを最適化する新しいオンラインRLパラダイムである。
DiffusionNFTは、CFGフリーのFlowGRPOよりも25倍効率が高い。
- 参考スコア(独自算出の注目度): 99.94852379720153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online reinforcement learning (RL) has been central to post-training language models, but its extension to diffusion models remains challenging due to intractable likelihoods. Recent works discretize the reverse sampling process to enable GRPO-style training, yet they inherit fundamental drawbacks, including solver restrictions, forward-reverse inconsistency, and complicated integration with classifier-free guidance (CFG). We introduce Diffusion Negative-aware FineTuning (DiffusionNFT), a new online RL paradigm that optimizes diffusion models directly on the forward process via flow matching. DiffusionNFT contrasts positive and negative generations to define an implicit policy improvement direction, naturally incorporating reinforcement signals into the supervised learning objective. This formulation enables training with arbitrary black-box solvers, eliminates the need for likelihood estimation, and requires only clean images rather than sampling trajectories for policy optimization. DiffusionNFT is up to $25\times$ more efficient than FlowGRPO in head-to-head comparisons, while being CFG-free. For instance, DiffusionNFT improves the GenEval score from 0.24 to 0.98 within 1k steps, while FlowGRPO achieves 0.95 with over 5k steps and additional CFG employment. By leveraging multiple reward models, DiffusionNFT significantly boosts the performance of SD3.5-Medium in every benchmark tested.
- Abstract(参考訳): オンライン強化学習(RL)は、訓練後の言語モデルの中心であるが、難易度のため、拡散モデルへの拡張は依然として困難である。
最近の研究は、GRPOスタイルのトレーニングを可能にするために、逆サンプリングプロセスを離散化しているが、ソルバ制限、前方逆不整合、分類器フリーガイダンス(CFG)との複雑な統合など、基本的な欠点を継承している。
Diffusion Negative-aware FineTuning (DiffusionNFT) は,フローマッチングによる前方プロセス上での拡散モデルを直接最適化する新しいオンラインRLパラダイムである。
DiffusionNFTは、暗黙の政策改善方向を定義するために、正と負の世代を対比し、自然に強化信号を教師あり学習目標に組み込む。
この定式化は、任意のブラックボックスソルバによるトレーニングを可能にし、確率推定の必要性を排除し、ポリシー最適化のために軌道をサンプリングするよりもクリーンな画像のみを必要とする。
DiffusionNFTは、CFGフリーのFlowGRPOよりも25\times$効率が良い。
例えば、DiffusionNFTは1kステップでGenEvalのスコアを0.24から0.98に改善し、FlowGRPOは5kステップ以上で0.95を達成する。
複数の報酬モデルを活用することで、DiffusionNFTはテスト対象のベンチマーク毎にSD3.5-Mediumのパフォーマンスを大幅に向上させる。
関連論文リスト
- Navigating Sparse Molecular Data with Stein Diffusion Guidance [48.21071466968102]
最適制御(SOC)は、微調整拡散モデルのための原則的フレームワークとして登場した。
予測されたクリーンなサンプルに対して,既成の分類器を用いて拡散モデルを導出する,トレーニング不要な手法のクラスが開発されている。
本稿では,サロゲート最適制御目標に基づく新しいトレーニングフリーガイダンスフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T21:14:27Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - ProReflow: Progressive Reflow with Decomposed Velocity [52.249464542399636]
フローマッチングは、拡散モデルの拡散過程を数ステップまたは1ステップ生成のために直線に再フローすることを目的としている。
局所的な時間ステップで拡散モデルを段階的に再フローし,拡散全体を進行させるプログレッシブ・リフローを導入する。
また,フローマッチングにおける方向整合の重要性を強調し,位置整合性を考慮したV-Predictionを導入する。
論文 参考訳(メタデータ) (2025-03-05T04:50:53Z) - Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening [56.99266993852532]
拡散シャープニング(Diffusion-Sharpening)は、サンプリング軌道を最適化することで下流のアライメントを向上させる微調整手法である。
提案手法は, NFEを必要とせず, より高速に収束し, 最高の推論効率を示す。
論文 参考訳(メタデータ) (2025-02-17T18:57:26Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Generative Modeling with Flow-Guided Density Ratio Learning [12.192867460641835]
Flow-Guided Density Ratio Learning (FDRL)は、生成モデルに対するシンプルでスケーラブルなアプローチである。
我々は,FDRLが128時間128ドルの高次元の画像を生成するとともに,既存の勾配流ベースラインを定量的なベンチマークで上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-07T07:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。