論文の概要: Coefficients-Preserving Sampling for Reinforcement Learning with Flow Matching
- arxiv url: http://arxiv.org/abs/2509.05952v1
- Date: Sun, 07 Sep 2025 07:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.791984
- Title: Coefficients-Preserving Sampling for Reinforcement Learning with Flow Matching
- Title(参考訳): フローマッチングを用いた強化学習のための係数保存サンプリング
- Authors: Feng Wang, Zihao Yu,
- Abstract要約: Reinforcement Learning (RL) は拡散およびフローマッチングモデルにおける画像生成と映像生成を改善する強力な手法として登場した。
SDEに基づくサンプリングは、生成された画像に顕著なノイズアーティファクトを導入します。
提案手法であるCoefficients-Preserving Sampling (CPS)は,これらのノイズアーティファクトを除去する。
- 参考スコア(独自算出の注目度): 6.238027696245818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has recently emerged as a powerful technique for improving image and video generation in Diffusion and Flow Matching models, specifically for enhancing output quality and alignment with prompts. A critical step for applying online RL methods on Flow Matching is the introduction of stochasticity into the deterministic framework, commonly realized by Stochastic Differential Equation (SDE). Our investigation reveals a significant drawback to this approach: SDE-based sampling introduces pronounced noise artifacts in the generated images, which we found to be detrimental to the reward learning process. A rigorous theoretical analysis traces the origin of this noise to an excess of stochasticity injected during inference. To address this, we draw inspiration from Denoising Diffusion Implicit Models (DDIM) to reformulate the sampling process. Our proposed method, Coefficients-Preserving Sampling (CPS), eliminates these noise artifacts. This leads to more accurate reward modeling, ultimately enabling faster and more stable convergence for reinforcement learning-based optimizers like Flow-GRPO and Dance-GRPO. Code will be released at https://github.com/IamCreateAI/FlowCPS
- Abstract(参考訳): Reinforcement Learning (RL) は拡散・フローマッチングモデルにおける画像生成と映像生成を改善する強力な手法として最近登場し、特に出力品質の向上とプロンプトとの整合性向上を目的としている。
オンラインRL手法をフローマッチングに適用するための重要なステップは、確率性を決定論的フレームワークに導入することであり、SDE(Stochastic Differential Equation)によって一般的に実現されている。
SDEに基づくサンプリングは、生成画像に顕著なノイズアーティファクトを導入し、報奨学習プロセスに有害であることが判明した。
厳密な理論的分析は、このノイズの起源を推論中に注入された確率の超過に遡る。
これを解決するために,Diffusion Implicit Models (DDIM) からインスピレーションを得て,サンプリングプロセスを再構築する。
提案手法であるCoefficients-Preserving Sampling (CPS)は,これらのノイズアーティファクトを除去する。
これにより、より正確な報酬モデリングが可能になり、最終的にFlow-GRPOやDance-GRPOといった強化学習ベースのオプティマイザに対して、より高速で安定した収束を可能にします。
コードはhttps://github.com/IamCreateAI/FlowCPSでリリースされる
関連論文リスト
- Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。
本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。
拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文 参考訳(メタデータ) (2025-08-13T17:33:37Z) - Noise Conditional Variational Score Distillation [60.38982038894823]
騒音条件変化スコア蒸留(NCVSD)は, 予混合拡散モデルから生成消音剤を蒸留する新しい方法である。
この知見を変分スコア蒸留フレームワークに組み込むことで、生成的デノイザのスケーラブルな学習を可能にする。
論文 参考訳(メタデータ) (2025-06-11T06:01:39Z) - Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts [64.34482582690927]
事前学習したスコアベースモデルから得られた熱処理, 幾何平均, 製品分布の配列から, 効率的かつ原理的に抽出する方法を提供する。
本稿では,サンプリング品質を向上させるために,推論時間スケーリングを利用する逐次モンテカルロ(SMC)再サンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-04T17:46:51Z) - Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。
本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。
トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文 参考訳(メタデータ) (2024-12-12T07:24:13Z) - Adjoint Matching: Fine-tuning Flow and Diffusion Generative Models with Memoryless Stochastic Optimal Control [26.195547996552406]
我々は,反復的プロセスを通じてサンプルを生成する動的生成モデルに対して,報酬微調整を最適制御(SOC)として用いた。
提案手法は,報酬の微調整,一貫性の向上,リアリズム,人間の選好報酬モデルへの一般化など,既存の方法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-09-13T14:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。