論文の概要: Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function
- arxiv url: http://arxiv.org/abs/2512.04559v1
- Date: Thu, 04 Dec 2025 08:21:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.066085
- Title: Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function
- Title(参考訳): ソフトQ-Functionのパラメータ化ポリシ勾配による拡散微調整
- Authors: Hyeongyu Kang, Jaewoo Lee, Woocheol Shin, Kiyoung Om, Jinkyoo Park,
- Abstract要約: 拡散モデルは高濃度のサンプルを生成するのに優れるが、しばしば下流の目的と整合する必要がある。
拡散アライメントのための新しいKL正規化RL法である textbfSoft Q-based Diffusion Finetuning (SQDF) を提案する。
SQDFはテキストと画像のアライメントの多様性を維持しながら、優れた目標報酬を達成する。
- 参考スコア(独自算出の注目度): 25.182340618001792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models excel at generating high-likelihood samples but often require alignment with downstream objectives. Existing fine-tuning methods for diffusion models significantly suffer from reward over-optimization, resulting in high-reward but unnatural samples and degraded diversity. To mitigate over-optimization, we propose \textbf{Soft Q-based Diffusion Finetuning (SQDF)}, a novel KL-regularized RL method for diffusion alignment that applies a reparameterized policy gradient of a training-free, differentiable estimation of the soft Q-function. SQDF is further enhanced with three innovations: a discount factor for proper credit assignment in the denoising process, the integration of consistency models to refine Q-function estimates, and the use of an off-policy replay buffer to improve mode coverage and manage the reward-diversity trade-off. Our experiments demonstrate that SQDF achieves superior target rewards while preserving diversity in text-to-image alignment. Furthermore, in online black-box optimization, SQDF attains high sample efficiency while maintaining naturalness and diversity.
- Abstract(参考訳): 拡散モデルは高濃度のサンプルを生成するのに優れるが、しばしば下流の目的と整合する必要がある。
既存の拡散モデルのための微調整法は、過度な最適化の報奨に著しく悩まされ、高逆だが不自然なサンプルと劣化した多様性をもたらす。
過度な最適化を緩和するために, ソフトQ関数の再パラメータ化ポリシ勾配を適用した分散アライメントのための新しいKL正規化RL法である \textbf{Soft Q-based Diffusion Finetuning (SQDF)} を提案する。
SQDFはさらに3つのイノベーションで強化されており、デノナイジングプロセスにおける適切なクレジット割り当てのための割引係数、Q関数の推定を洗練するための一貫性モデルの統合、モードカバレッジを改善し、報酬と多様性のトレードオフを管理するためのオフ・ポリティ・リプレイバッファの利用である。
実験により,SQDFはテキストと画像のアライメントの多様性を保ちながら,より優れた目標報酬を達成することが示された。
さらに、オンラインのブラックボックス最適化において、SQDFは自然性と多様性を維持しながら高いサンプリング効率を達成する。
関連論文リスト
- G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design [58.8094854658848]
生体分子設計における報酬誘導生成のための微調整拡散モデルの問題に対処する。
本稿では,拡散モデルによる任意の報酬関数の最適化を可能にする,反復蒸留に基づく微調整フレームワークを提案する。
KLの発散最小化と相まって,既存のRL法と比較してトレーニングの安定性とサンプル効率を向上させる。
論文 参考訳(メタデータ) (2025-07-01T05:55:28Z) - Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering [18.543769006014383]
拡散モデルはしばしば、サンプリング軌跡に固有の変化のために、一貫性のないサンプル品質を示す。
CFG-リジェクション(CFG-Rejection)は,デノナイジングプロセスの初期段階において,低品質なサンプルをフィルタリングする効率的なプラグアンドプレイ戦略である。
画像生成におけるCFG-Rejectionの有効性を広範囲な実験により検証する。
論文 参考訳(メタデータ) (2025-05-29T11:08:24Z) - VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文 参考訳(メタデータ) (2025-05-21T17:44:37Z) - Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized
Control [54.132297393662654]
拡散モデルは、自然画像やタンパク質のような複雑なデータ分布を捉えるのに優れている。
拡散モデルはトレーニングデータセットの分布を表現するために訓練されるが、私たちはしばしば、生成された画像の美的品質など他の特性にもっと関心を持っている。
本稿では,本フレームワークが真に報酬の高い多種多様なサンプルを効率よく生成できることを示す理論的,実証的な証拠を示す。
論文 参考訳(メタデータ) (2024-02-23T08:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。