論文の概要: Understanding Sampler Stochasticity in Training Diffusion Models for RLHF
- arxiv url: http://arxiv.org/abs/2510.10767v1
- Date: Sun, 12 Oct 2025 19:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.100292
- Title: Understanding Sampler Stochasticity in Training Diffusion Models for RLHF
- Title(参考訳): RLHF学習拡散モデルにおけるサンプリング確率の理解
- Authors: Jiayuan Sheng, Hanyang Zhao, Haoxian Chen, David D. Yao, Wenpin Tang,
- Abstract要約: 本稿では,報酬ギャップを理論的に特徴づけ,一般拡散モデルに対して非空境界を与える。
実験では,テキスト・ツー・イメージ・モデルによる大規模な実験により,報酬ギャップがトレーニングよりも一定に狭まることが確認された。
- 参考スコア(独自算出の注目度): 11.537564997052606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is increasingly used to fine-tune diffusion models, but a key challenge arises from the mismatch between stochastic samplers used during training and deterministic samplers used during inference. In practice, models are fine-tuned using stochastic SDE samplers to encourage exploration, while inference typically relies on deterministic ODE samplers for efficiency and stability. This discrepancy induces a reward gap, raising concerns about whether high-quality outputs can be expected during inference. In this paper, we theoretically characterize this reward gap and provide non-vacuous bounds for general diffusion models, along with sharper convergence rates for Variance Exploding (VE) and Variance Preserving (VP) Gaussian models. Methodologically, we adopt the generalized denoising diffusion implicit models (gDDIM) framework to support arbitrarily high levels of stochasticity, preserving data marginals throughout. Empirically, our findings through large-scale experiments on text-to-image models using denoising diffusion policy optimization (DDPO) and mixed group relative policy optimization (MixGRPO) validate that reward gaps consistently narrow over training, and ODE sampling quality improves when models are updated using higher-stochasticity SDE training.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、微調整拡散モデルにますます使われているが、トレーニングで使用される確率的サンプルラーと推論で使用される決定論的サンプルラーとのミスマッチから重要な課題が生じる。
実際には、モデルは探索を促進するために確率的SDEサンプルラーを使用して微調整されるが、推論は通常、効率と安定性のために決定論的ODEサンプルラーに依存している。
この不一致は報酬ギャップを生じさせ、推論中に高品質なアウトプットが期待できるかどうかという懸念を提起する。
本稿では,この報酬ギャップを理論的に特徴づけ,一般拡散モデルに対する非空境界と,分散爆発(VE)および分散保存(VP)ガウスモデルに対するよりシャープな収束率を提供する。
手法としては,一般化された拡散暗黙的モデル (gDDIM) フレームワークを任意に高い確率性をサポートし,データの限界を保っている。
実験により,DPO (Denoising diffusion Policy Optimization) とMixGRPO (MixGRPO) を用いたテキスト・ツー・イメージ・モデルの大規模実験により,報酬ギャップがトレーニングよりも一貫して狭くなり,高確率SDEトレーニングを用いてモデルが更新された場合,ODEサンプリング品質が向上することが確認された。
関連論文リスト
- G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering [18.543769006014383]
拡散モデルはしばしば、サンプリング軌跡に固有の変化のために、一貫性のないサンプル品質を示す。
CFG-リジェクション(CFG-Rejection)は,デノナイジングプロセスの初期段階において,低品質なサンプルをフィルタリングする効率的なプラグアンドプレイ戦略である。
画像生成におけるCFG-Rejectionの有効性を広範囲な実験により検証する。
論文 参考訳(メタデータ) (2025-05-29T11:08:24Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
実験の結果,提案手法は平均的美学のテキスト・ツー・イメージ生成を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - A Geometric Perspective on Diffusion Models [57.27857591493788]
本稿では,人気のある分散拡散型SDEのODEに基づくサンプリングについて検討する。
我々は、最適なODEベースのサンプリングと古典的な平均シフト(モード探索)アルゴリズムの理論的関係を確立する。
論文 参考訳(メタデータ) (2023-05-31T15:33:16Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Fast Inference in Denoising Diffusion Models via MMD Finetuning [23.779985842891705]
拡散モデルの高速サンプリング法であるMDD-DDMを提案する。
我々のアプローチは、学習した分布を所定の予算のタイムステップで微調整するために、最大平均離散性(MMD)を使用するという考え方に基づいている。
提案手法は,広範に普及した拡散モデルで要求されるわずかな時間で高品質なサンプルを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-01-19T09:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。