論文の概要: VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL
- arxiv url: http://arxiv.org/abs/2505.15791v1
- Date: Wed, 21 May 2025 17:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.810156
- Title: VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL
- Title(参考訳): VARD: 価値に基づくRL付き拡散モデルのための効率的かつ高密度な微調整
- Authors: Fengyuan Dai, Zifeng Zhuang, Yufei Huang, Siteng Huang, Bangyan Liao, Donglin Wang, Fajie Yuan,
- Abstract要約: VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
- 参考スコア(独自算出の注目度): 28.95582264086289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have emerged as powerful generative tools across various domains, yet tailoring pre-trained models to exhibit specific desirable properties remains challenging. While reinforcement learning (RL) offers a promising solution,current methods struggle to simultaneously achieve stable, efficient fine-tuning and support non-differentiable rewards. Furthermore, their reliance on sparse rewards provides inadequate supervision during intermediate steps, often resulting in suboptimal generation quality. To address these limitations, dense and differentiable signals are required throughout the diffusion process. Hence, we propose VAlue-based Reinforced Diffusion (VARD): a novel approach that first learns a value function predicting expection of rewards from intermediate states, and subsequently uses this value function with KL regularization to provide dense supervision throughout the generation process. Our method maintains proximity to the pretrained model while enabling effective and stable training via backpropagation. Experimental results demonstrate that our approach facilitates better trajectory guidance, improves training efficiency and extends the applicability of RL to diffusion models optimized for complex, non-differentiable reward functions.
- Abstract(参考訳): 拡散モデルは、様々な領域にまたがる強力な生成ツールとして登場したが、特定の望ましい性質を示すために事前訓練されたモデルを調整することは依然として困難である。
強化学習(RL)が有望なソリューションを提供する一方で、現在の手法は安定的で効率的な微調整を同時に達成し、非微分可能報酬をサポートするのに苦労している。
さらに、スパース報酬への依存は中間段階における不適切な監督を与え、しばしば最適以下の生成品質をもたらす。
これらの制限に対処するためには、拡散過程を通して密度と微分可能な信号が必要である。
したがって、VAlue-based Reinforced Diffusion (VARD: Reinforced Diffusion) は、まず中間状態から報酬の期待を予測する値関数を学習し、その後KL正則化を用いてこの値関数を用いて生成プロセス全体を通して密に管理する。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
実験の結果,提案手法は軌道誘導の向上,訓練効率の向上,複雑で微分不可能な報酬関数に最適化された拡散モデルへのRLの適用性の向上を実証した。
関連論文リスト
- PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity [9.092404060771306]
拡散モデルでは、高品質な条件付きサンプルの生成に顕著な結果が示されている。
しかし、既存の方法は、しばしば追加のトレーニングや神経機能評価(NFE)を必要とする。
本稿では,スパースアテンションを生かして事前学習モデルを強化する,PLADISと呼ばれる新しい,効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-10T07:23:19Z) - Score as Action: Fine-Tuning Diffusion Generative Models by Continuous-time Reinforcement Learning [9.025671446527694]
人間のフィードバックからの強化学習(RLHF)は、信頼できる生成AIモデルを構築する上で重要なステップとなっている。
本研究は、連続時間RLを用いた微動拡散モデルに対する規律付きアプローチを開発することを目的とする。
論文 参考訳(メタデータ) (2025-02-03T20:50:05Z) - Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
実験の結果,提案手法は平均的美学のテキスト・ツー・イメージ生成を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Structural Pruning for Diffusion Models [65.02607075556742]
Diff-Pruningは、既存のものから軽量拡散モデルの学習に適した効率的な圧縮手法である。
複数のデータセットにまたがって実施した経験的評価は,提案手法の2つの利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-05-18T12:38:21Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。