論文の概要: Diffusion Reinforcement Learning via Centered Reward Distillation
- arxiv url: http://arxiv.org/abs/2603.14128v1
- Date: Sat, 14 Mar 2026 21:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.620924
- Title: Diffusion Reinforcement Learning via Centered Reward Distillation
- Title(参考訳): センタード・リワード蒸留による拡散強化学習
- Authors: Yuanzhi Zhu, Xi Wang, Stéphane Lathuilière, Vicky Kalogeiton,
- Abstract要約: フォワードプロセス微細チューニング上に構築されたKL正規化報酬モデルから導出した拡散RLフレームワークである textbf Reward Distillation (CRD) を提案する。
信頼性の高いテキスト・画像の微調整を可能にするため,分布のドリフトを明示的に制御する手法を提案する。
textttGenEval と textttOCR rewards によるテキスト・ツー・イメージのポストトレーニング実験では、競合する SOTA の報酬最適化が高速収束と報酬ハッキングの好みの低減をもたらすことが示された。
- 参考スコア(独自算出の注目度): 35.979608265594685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion and flow models achieve State-Of-The-Art (SOTA) generative performance, yet many practically important behaviors such as fine-grained prompt fidelity, compositional correctness, and text rendering are weakly specified by score or flow matching pretraining objectives. Reinforcement Learning (RL) fine-tuning with external, black-box rewards is a natural remedy, but diffusion RL is often brittle. Trajectory-based methods incur high memory cost and high-variance gradient estimates; forward-process approaches converge faster but can suffer from distribution drift, and hence reward hacking. In this work, we present \textbf{Centered Reward Distillation (CRD)}, a diffusion RL framework derived from KL-regularized reward maximization built on forward-process-based fine-tuning. The key insight is that the intractable normalizing constant cancels under \emph{within-prompt centering}, yielding a well-posed reward-matching objective. To enable reliable text-to-image fine-tuning, we introduce techniques that explicitly control distribution drift: (\textit{i}) decoupling the sampler from the moving reference to prevent ratio-signal collapse, (\textit{ii}) KL anchoring to a CFG-guided pretrained model to control long-run drift and align with the inference-time semantics of the pre-trained model, and (\textit{iii}) reward-adaptive KL strength to accelerate early learning under large KL regularization while reducing late-stage exploitation of reward-model loopholes. Experiments on text-to-image post-training with \texttt{GenEval} and \texttt{OCR} rewards show that CRD achieves competitive SOTA reward optimization results with fast convergence and reduced reward hacking, as validated on unseen preference metrics.
- Abstract(参考訳): 拡散モデルと流れモデルにより、状態-Of-The-Art(SOTA)生成性能が達成されるが、微粒なプロンプト忠実度、構成的正確性、テキストレンダリングといった多くの実践的な重要な挙動は、スコアやフローマッチング事前学習目標によって弱い特定がなされる。
強化学習(RL) 外部のブラックボックス報酬を用いた微調整は自然な治療法であるが、拡散RLは脆弱であることが多い。
トラジェクトリベースの手法は、高メモリコストと高分散勾配推定を発生させ、フォワードプロセスのアプローチはより高速に収束するが、分布のドリフトに悩まされ、それによって報酬のハッキングを行う。
本稿では,KL-正規化報酬最大化に基づく拡散RLフレームワークであるtextbf{Centered Reward Distillation (CRD)について述べる。
キーとなる洞察は、難解な正規化定数は \emph{within-prompt centering} の下でキャンセルされ、十分な報酬マッチングの目的が得られるということである。
そこで,本研究では,分散ドリフトを明示的に制御する手法を提案する。 (\textit{i}) サンプルを移動基準から切り離して比信号崩壊を防止する, (\textit{ii}) KL を CFG 誘導事前学習モデルにアンカリングして長周期ドリフトを制御し,事前学習モデルの推論時間意味と整合させる, (\textit{iii}) 報酬適応型KL 強度により,KL 正規化下での早期学習を加速し,報酬モデルループホールの後期的利用を減少させる,。
テキスト・トゥ・イメージ・ポスト・トレーニングにおいて, テキスト・トゥ・イメージ・トレーニングにおいて, テキスト・トゥ・イメージ・トレーニングにおいて, テキスト・トゥ・トレーニングにおいて, テキスト・トゥ・イメージ・トレーニングにおいて, テキスト・トゥ・イメージ・トレーニングにおいて, コンバージェンスと報酬のハッキングを減らし, 競争力のあるSOTA報酬最適化を達成できることが実証された。
関連論文リスト
- Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - DeRaDiff: Denoising Time Realignment of Diffusion Models [45.23864679259705]
正しい正規化の強さをどのように選ぶか。
DeRaDiffはサンプリング中の正規化強度を変調し、追加のトレーニングや微調整なしに他の正規化強度でトレーニングされたモデルをエミュレートする。
本手法は, 正則化強度の異なるスクラッチから完全に整列したモデルに対して, 常に強い近似を与える。
論文 参考訳(メタデータ) (2026-01-28T02:53:39Z) - GDRO: Group-level Reward Post-training Suitable for Diffusion Models [55.948229011478304]
グループレベルの報酬は、モデルを目標とする報酬と整合させるのに成功します。
Group-level Direct Reward Optimization (GDRO)は、グループレベルの報酬アライメントのための新しいトレーニング後のパラダイムである。
GDROは完全なオフライントレーニングをサポートし、画像ロールアウトサンプリングの大幅なコスト削減を実現する。
これは拡散サンプラー非依存であり、取得性に対するODE-to-SDE近似の必要性を排除している。
論文 参考訳(メタデータ) (2026-01-05T11:47:18Z) - Data-regularized Reinforcement Learning for Diffusion Models at Scale [99.01056178660538]
データ正規化拡散強化学習(Data-regularized Diffusion Reinforcement Learning, DDRL)は, フォワードKLの分散を利用して, 政策を非政治データ分布に固定する新しいフレームワークである。
100万時間以上のGPU実験と1万回の二重盲検評価により、DDRLは、RLで見られる報酬ハックを緩和しながら、報酬を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-12-03T23:45:07Z) - VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文 参考訳(メタデータ) (2025-05-21T17:44:37Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - DR-Tune: Improving Fine-tuning of Pretrained Visual Models by
Distribution Regularization with Semantic Calibration [38.4461170690033]
セマンティックキャリブレーションを用いた分布正規化(DR-Tune)という,新しい微調整フレームワークを提案する。
DR-Tuneは、下流タスクヘッドを強制して、事前訓練された特徴分布の分類誤差を低減することで、分散正則化を採用する。
セマンティックドリフトによる干渉を軽減するため,セマンティックキャリブレーション(SC)モジュールを開発した。
論文 参考訳(メタデータ) (2023-08-23T10:59:20Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。