論文の概要: Directly Fine-Tuning Diffusion Models on Differentiable Rewards
- arxiv url: http://arxiv.org/abs/2309.17400v1
- Date: Fri, 29 Sep 2023 17:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 12:33:58.784091
- Title: Directly Fine-Tuning Diffusion Models on Differentiable Rewards
- Title(参考訳): 微分逆流の直接微調整拡散モデル
- Authors: Kevin Clark, Paul Vicol, Kevin Swersky, David J Fleet
- Abstract要約: 本稿では,微分可能報酬関数を最大化するために,拡散モデルを微調整するダイレクト・リワード・ファイン・チューニング(DRaFT)を提案する。
まず,全サンプリング手順で報酬関数勾配を逆伝播させることで,様々な報酬に対して高い性能が得られることを示す。
提案手法は,様々な報酬関数に対して有効であり,安定拡散1.4で生成した画像の美的品質を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 24.21757093966409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Direct Reward Fine-Tuning (DRaFT), a simple and effective method
for fine-tuning diffusion models to maximize differentiable reward functions,
such as scores from human preference models. We first show that it is possible
to backpropagate the reward function gradient through the full sampling
procedure, and that doing so achieves strong performance on a variety of
rewards, outperforming reinforcement learning-based approaches. We then propose
more efficient variants of DRaFT: DRaFT-K, which truncates backpropagation to
only the last K steps of sampling, and DRaFT-LV, which obtains lower-variance
gradient estimates for the case when K=1. We show that our methods work well
for a variety of reward functions and can be used to substantially improve the
aesthetic quality of images generated by Stable Diffusion 1.4. Finally, we draw
connections between our approach and prior work, providing a unifying
perspective on the design space of gradient-based fine-tuning algorithms.
- Abstract(参考訳): 本稿では,人間の嗜好モデルからのスコアなど,微分可能な報酬関数を最大化するための,簡易かつ効果的な拡散モデル手法であるdirect reward fine-tuning (draft)を提案する。
まず,完全なサンプリング手順を通じて報酬関数の勾配をバックプロパゲートすることが可能であり,その結果,強化学習に基づくアプローチを上回って,様々な報酬において強力な性能が得られることを示す。
次に DRaFT のより効率的な変種を提案する: DRaFT-K と DRaFT-LV は K=1 の場合の低分散勾配推定値を得る。
提案手法は,様々な報酬関数に対して有効であり,安定拡散1.4で生成した画像の美的品質を大幅に向上させることができる。
最後に,我々のアプローチと先行作業との関係を描き,グラデーションに基づく微調整アルゴリズムの設計空間に関する統一的な視点を提供する。
関連論文リスト
- Learning Efficient and Effective Trajectories for Differential Equation-based Image Restoration [59.744840744491945]
我々は, この手法の軌道最適化を再構築し, 復元品質と効率の両立に焦点をあてる。
本稿では,複雑な経路を適応可能なサイズで複数の管理可能なステップに合理化するためのコスト対応トラジェクトリー蒸留法を提案する。
実験では提案手法の有意な優位性を示し, 最先端手法よりも最大2.1dBのPSNR改善を実現した。
論文 参考訳(メタデータ) (2024-10-07T07:46:08Z) - Diagonalisation SGD: Fast & Convergent SGD for Non-Differentiable Models
via Reparameterisation and Smoothing [1.6114012813668932]
微分不可能な関数を断片的に定義するための単純なフレームワークを導入し,スムース化を得るための体系的なアプローチを提案する。
我々の主な貢献は SGD の新たな変種 Diagonalisation Gradient Descent であり、滑らかな近似の精度を徐々に向上させる。
我々のアプローチは単純で高速で安定であり、作業正規化分散の桁数削減を実現している。
論文 参考訳(メタデータ) (2024-02-19T00:43:22Z) - Using Stochastic Gradient Descent to Smooth Nonconvex Functions: Analysis of Implicit Graduated Optimization [0.6906005491572401]
バッチ降下勾配 (SGD) における雑音は, 目的関数の平滑化の効果を示す。
我々は,学習率とバッチサイズによってスムース化の度合いが変化する新しい累積最適化アルゴリズムを解析する。
論文 参考訳(メタデータ) (2023-11-15T07:27:40Z) - PGDiff: Guiding Diffusion Models for Versatile Face Restoration via
Partial Guidance [65.5618804029422]
これまでの研究は、明示的な劣化モデルを用いて解空間を制限することで、注目すべき成功を収めてきた。
実世界の劣化に適応可能な新しい視点である部分的ガイダンスを導入することでPGDiffを提案する。
提案手法は,既存の拡散優先手法に勝るだけでなく,タスク固有モデルと良好に競合する。
論文 参考訳(メタデータ) (2023-09-19T17:51:33Z) - Optimizing DDPM Sampling with Shortcut Fine-Tuning [16.137936204766692]
ショートカットファインチューニング(SFT)は、事前学習した拡散拡散確率モデル(DDPM)の高速サンプリングの課題に対処するための新しいアプローチである。
SFTは、積分確率メートル法(IPM)の直接最小化によるDDPMサンプリング器の微調整を提唱している。
制御の観点から着想を得た新しいアルゴリズム SFT-PG: Shortcut Fine-Tuning with Policy Gradient を提案する。
論文 参考訳(メタデータ) (2023-01-31T01:37:48Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Second-order step-size tuning of SGD for non-convex optimization [6.021787236982659]
本稿では,バニラSGDの直接的かつ簡便な改良の観点から,ミニバッチケースのステップサイズを微調整する。
古典的なbarzilai-borwein法のバージョンと見なすことができる新しい一階勾配法(ステップ調整sgd)を得る。
論文 参考訳(メタデータ) (2021-03-05T10:01:48Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。