論文の概要: VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL
- arxiv url: http://arxiv.org/abs/2505.15791v2
- Date: Mon, 02 Jun 2025 17:53:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.412435
- Title: VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL
- Title(参考訳): VARD: 価値に基づくRL付き拡散モデルのための効率的かつ高密度な微調整
- Authors: Fengyuan Dai, Zifeng Zhuang, Yufei Huang, Siteng Huang, Bangyan Liao, Donglin Wang, Fajie Yuan,
- Abstract要約: VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
- 参考スコア(独自算出の注目度): 28.95582264086289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have emerged as powerful generative tools across various domains, yet tailoring pre-trained models to exhibit specific desirable properties remains challenging. While reinforcement learning (RL) offers a promising solution,current methods struggle to simultaneously achieve stable, efficient fine-tuning and support non-differentiable rewards. Furthermore, their reliance on sparse rewards provides inadequate supervision during intermediate steps, often resulting in suboptimal generation quality. To address these limitations, dense and differentiable signals are required throughout the diffusion process. Hence, we propose VAlue-based Reinforced Diffusion (VARD): a novel approach that first learns a value function predicting expection of rewards from intermediate states, and subsequently uses this value function with KL regularization to provide dense supervision throughout the generation process. Our method maintains proximity to the pretrained model while enabling effective and stable training via backpropagation. Experimental results demonstrate that our approach facilitates better trajectory guidance, improves training efficiency and extends the applicability of RL to diffusion models optimized for complex, non-differentiable reward functions.
- Abstract(参考訳): 拡散モデルは、様々な領域にまたがる強力な生成ツールとして登場したが、特定の望ましい性質を示すために事前訓練されたモデルを調整することは依然として困難である。
強化学習(RL)が有望なソリューションを提供する一方で、現在の手法は安定的で効率的な微調整を同時に達成し、非微分可能報酬をサポートするのに苦労している。
さらに、スパース報酬への依存は中間段階における不適切な監督を与え、しばしば最適以下の生成品質をもたらす。
これらの制限に対処するためには、拡散過程を通して密度と微分可能な信号が必要である。
したがって、VAlue-based Reinforced Diffusion (VARD: Reinforced Diffusion) は、まず中間状態から報酬の期待を予測する値関数を学習し、その後KL正則化を用いてこの値関数を用いて生成プロセス全体を通して密に管理する。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
実験の結果,提案手法は軌道誘導の向上,訓練効率の向上,複雑で微分不可能な報酬関数に最適化された拡散モデルへのRLの適用性の向上を実証した。
関連論文リスト
- Training-Free Adaptation of Diffusion Models via Doob's $h$-Transform [37.05492050174751]
DOIT(Doob-Oriented Inference-time Transformation)は、トレーニング不要で計算効率のよい適応法である。
我々は,この輸送を実現するためにDoobの$h$-transformを利用し,拡散サンプリングプロセスに対する動的補正を誘導する。
本手法はサンプリング効率を保ちながら常に最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-18T05:44:19Z) - Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling [58.59644539594293]
DiNa-LRMは、雑音拡散状態に基づいて好み学習を直接定式化する拡散ネイティブ潜在報酬モデルである。
本手法は拡散ノイズ依存の不確実性を伴う雑音校正サーストンの可能性を導入する。
画像アライメントベンチマーク全体において、DiNa-LRMは既存の拡散ベースの報酬ベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-02-11T18:57:29Z) - ReDiF: Reinforced Distillation for Few Step Diffusion [21.686373820429736]
蒸留は、より小さいサイズまたは少ないステップのモデルを作成することにより、拡散モデルにおける遅いサンプリング問題に対処する。
拡散モデルのための強化学習に基づく蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-28T06:27:24Z) - Data-regularized Reinforcement Learning for Diffusion Models at Scale [99.01056178660538]
データ正規化拡散強化学習(Data-regularized Diffusion Reinforcement Learning, DDRL)は, フォワードKLの分散を利用して, 政策を非政治データ分布に固定する新しいフレームワークである。
100万時間以上のGPU実験と1万回の二重盲検評価により、DDRLは、RLで見られる報酬ハックを緩和しながら、報酬を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-12-03T23:45:07Z) - Boosting Fidelity for Pre-Trained-Diffusion-Based Low-Light Image Enhancement via Condition Refinement [63.54516423266521]
事前学習拡散ベース(PTDB)法は、しばしばコンテンツ忠実さを犠牲にして知覚的リアリズムを高める。
本稿では,事前学習した拡散モデルにおける条件付けのための新しい最適化手法を提案する。
我々のアプローチはプラグアンドプレイであり、より効率的な制御を提供するために既存の拡散ネットワークにシームレスに統合される。
論文 参考訳(メタデータ) (2025-10-20T02:40:06Z) - Plug-and-Play Prompt Refinement via Latent Feedback for Diffusion Model Alignment [54.17386822940477]
PromptLoopはプラグインとプレイの強化学習フレームワークで、遅延フィードバックをステップワイドな即興改善に組み込む。
この設計は、プロンプトベースのアライメントの柔軟性と一般性を維持しながら、拡散RLアプローチと構造的な類似性を実現する。
論文 参考訳(メタデータ) (2025-10-01T02:18:58Z) - Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。
DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design [53.93023688824764]
生体分子設計における報酬誘導生成のための微調整拡散モデルの問題に対処する。
本稿では,拡散モデルによる任意の報酬関数の最適化を可能にする,反復蒸留に基づく微調整フレームワークを提案する。
KLの発散最小化と相まって,既存のRL法と比較してトレーニングの安定性とサンプル効率を向上させる。
論文 参考訳(メタデータ) (2025-07-01T05:55:28Z) - PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity [9.092404060771306]
拡散モデルでは、高品質な条件付きサンプルの生成に顕著な結果が示されている。
しかし、既存の方法は、しばしば追加のトレーニングや神経機能評価(NFE)を必要とする。
本稿では,スパースアテンションを生かして事前学習モデルを強化する,PLADISと呼ばれる新しい,効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-10T07:23:19Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - Score as Action: Fine-Tuning Diffusion Generative Models by Continuous-time Reinforcement Learning [9.025671446527694]
人間のフィードバックからの強化学習(RLHF)は、信頼できる生成AIモデルを構築する上で重要なステップとなっている。
本研究は、連続時間RLを用いた微動拡散モデルに対する規律付きアプローチを開発することを目的とする。
論文 参考訳(メタデータ) (2025-02-03T20:50:05Z) - Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets [65.42834731617226]
そこで我々は,Nabla-GFlowNetと呼ばれる拡散モデルファインタニングのための強化学習手法を提案する。
提案手法は,大規模テキスト条件による画像拡散モデルである安定拡散の高速かつ多様かつ事前保存的な微調整を実現する。
論文 参考訳(メタデータ) (2024-12-10T18:59:58Z) - Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning [0.0]
強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。
拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。
HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
論文 参考訳(メタデータ) (2024-10-10T19:06:23Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
実験の結果,提案手法は平均的美学のテキスト・ツー・イメージ生成を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Structural Pruning for Diffusion Models [65.02607075556742]
Diff-Pruningは、既存のものから軽量拡散モデルの学習に適した効率的な圧縮手法である。
複数のデータセットにまたがって実施した経験的評価は,提案手法の2つの利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-05-18T12:38:21Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。