論文の概要: Directly Fine-Tuning Diffusion Models on Differentiable Rewards
- arxiv url: http://arxiv.org/abs/2309.17400v2
- Date: Fri, 21 Jun 2024 16:45:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 20:27:44.268569
- Title: Directly Fine-Tuning Diffusion Models on Differentiable Rewards
- Title(参考訳): 微分逆流の直接微調整拡散モデル
- Authors: Kevin Clark, Paul Vicol, Kevin Swersky, David J Fleet,
- Abstract要約: 本稿では,微分可能報酬関数を最大化するために,拡散モデルを微調整するダイレクト・リワード・ファイン・チューニング(DRaFT)を提案する。
まず,全サンプリング手順で報酬関数勾配を逆伝播させることで,様々な報酬に対して高い性能が得られることを示す。
提案手法は,様々な報酬関数に対して有効であり,安定拡散1.4で生成した画像の美的品質を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 22.1685707267062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Direct Reward Fine-Tuning (DRaFT), a simple and effective method for fine-tuning diffusion models to maximize differentiable reward functions, such as scores from human preference models. We first show that it is possible to backpropagate the reward function gradient through the full sampling procedure, and that doing so achieves strong performance on a variety of rewards, outperforming reinforcement learning-based approaches. We then propose more efficient variants of DRaFT: DRaFT-K, which truncates backpropagation to only the last K steps of sampling, and DRaFT-LV, which obtains lower-variance gradient estimates for the case when K=1. We show that our methods work well for a variety of reward functions and can be used to substantially improve the aesthetic quality of images generated by Stable Diffusion 1.4. Finally, we draw connections between our approach and prior work, providing a unifying perspective on the design space of gradient-based fine-tuning algorithms.
- Abstract(参考訳): 人選好モデルからのスコアなど、微分可能な報酬関数を最大化するために、拡散モデルの簡易かつ効果的な方法であるダイレクト・リワード・ファインチューニング(DRaFT)を提案する。
まず,本手法により報酬関数勾配を逆伝播させることが可能であること,さらに,様々な報奨に対して高い性能を達成し,強化学習に基づくアプローチよりも優れていることを示す。
次に DRaFT のより効率的な変種を提案する: DRaFT-K と DRaFT-LV は、K=1 の場合の低分散勾配推定値を得る。
提案手法は,様々な報酬関数に対して有効であり,安定拡散1.4で生成した画像の美的品質を大幅に向上させることができる。
最後に、我々のアプローチと先行作業の関連性を描き、勾配に基づく微調整アルゴリズムの設計空間について統一的な視点を提供する。
関連論文リスト
- Gradient Guidance for Diffusion Models: An Optimization Perspective [45.6080199096424]
本稿では,ガイド付きスコアベースサンプリングプロセスの理論的側面について検討する。
事前学習した拡散モデルのサンプリング過程に勾配ガイダンスを加えることは、基本的に正規化最適化問題の解法と等価であることを示す。
論文 参考訳(メタデータ) (2024-04-23T04:51:02Z) - Diagonalisation SGD: Fast & Convergent SGD for Non-Differentiable Models
via Reparameterisation and Smoothing [1.6114012813668932]
微分不可能な関数を断片的に定義するための単純なフレームワークを導入し,スムース化を得るための体系的なアプローチを提案する。
我々の主な貢献は SGD の新たな変種 Diagonalisation Gradient Descent であり、滑らかな近似の精度を徐々に向上させる。
我々のアプローチは単純で高速で安定であり、作業正規化分散の桁数削減を実現している。
論文 参考訳(メタデータ) (2024-02-19T00:43:22Z) - PGDiff: Guiding Diffusion Models for Versatile Face Restoration via
Partial Guidance [65.5618804029422]
これまでの研究は、明示的な劣化モデルを用いて解空間を制限することで、注目すべき成功を収めてきた。
実世界の劣化に適応可能な新しい視点である部分的ガイダンスを導入することでPGDiffを提案する。
提案手法は,既存の拡散優先手法に勝るだけでなく,タスク固有モデルと良好に競合する。
論文 参考訳(メタデータ) (2023-09-19T17:51:33Z) - Optimizing DDPM Sampling with Shortcut Fine-Tuning [16.137936204766692]
ショートカットファインチューニング(SFT)は、事前学習した拡散拡散確率モデル(DDPM)の高速サンプリングの課題に対処するための新しいアプローチである。
SFTは、積分確率メートル法(IPM)の直接最小化によるDDPMサンプリング器の微調整を提唱している。
制御の観点から着想を得た新しいアルゴリズム SFT-PG: Shortcut Fine-Tuning with Policy Gradient を提案する。
論文 参考訳(メタデータ) (2023-01-31T01:37:48Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Second-order step-size tuning of SGD for non-convex optimization [6.021787236982659]
本稿では,バニラSGDの直接的かつ簡便な改良の観点から,ミニバッチケースのステップサイズを微調整する。
古典的なbarzilai-borwein法のバージョンと見なすことができる新しい一階勾配法(ステップ調整sgd)を得る。
論文 参考訳(メタデータ) (2021-03-05T10:01:48Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。