論文の概要: DiffFit: Unlocking Transferability of Large Diffusion Models via Simple
Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2304.06648v2
- Date: Thu, 20 Apr 2023 12:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 16:03:14.637495
- Title: DiffFit: Unlocking Transferability of Large Diffusion Models via Simple
Parameter-Efficient Fine-Tuning
- Title(参考訳): DiffFit: 簡単なパラメータ効率の良い微調整による大拡散モデルの解錠性
- Authors: Enze Xie, Lewei Yao, Han Shi, Zhili Liu, Daquan Zhou, Zhaoqiang Liu,
Jiawei Li, Zhenguo Li
- Abstract要約: 本稿ではDiffFitを提案する。DiffFitは大規模な事前学習拡散モデルを微調整するためのパラメータ効率の戦略である。
完全な微調整と比較すると、DiffFitは2$times$のトレーニングスピードアップを実現しており、全体のモデルパラメータの0.12%を格納する必要がある。
注目すべきは、DiffFitが最小のコストを加えることで、訓練済みの低解像度生成モデルを高解像度に適応できることである。
- 参考スコア(独自算出の注目度): 51.151805100550625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have proven to be highly effective in generating
high-quality images. However, adapting large pre-trained diffusion models to
new domains remains an open challenge, which is critical for real-world
applications. This paper proposes DiffFit, a parameter-efficient strategy to
fine-tune large pre-trained diffusion models that enable fast adaptation to new
domains. DiffFit is embarrassingly simple that only fine-tunes the bias term
and newly-added scaling factors in specific layers, yet resulting in
significant training speed-up and reduced model storage costs. Compared with
full fine-tuning, DiffFit achieves 2$\times$ training speed-up and only needs
to store approximately 0.12\% of the total model parameters. Intuitive
theoretical analysis has been provided to justify the efficacy of scaling
factors on fast adaptation. On 8 downstream datasets, DiffFit achieves superior
or competitive performances compared to the full fine-tuning while being more
efficient. Remarkably, we show that DiffFit can adapt a pre-trained
low-resolution generative model to a high-resolution one by adding minimal
cost. Among diffusion-based methods, DiffFit sets a new state-of-the-art FID of
3.02 on ImageNet 512$\times$512 benchmark by fine-tuning only 25 epochs from a
public pre-trained ImageNet 256$\times$256 checkpoint while being 30$\times$
more training efficient than the closest competitor.
- Abstract(参考訳): 拡散モデルは高品質な画像の生成に非常に有効であることが証明されている。
しかし、大規模な事前学習拡散モデルを新しい領域に適用することは、現実世界のアプリケーションにとって重要な課題である。
本稿では,新しい領域への高速適応を可能にする大規模事前学習拡散モデルを微調整するパラメータ効率の高い手法であるdifffitを提案する。
DiffFitは、特定のレイヤでバイアス項と新たに追加されたスケーリング要素のみを微調整するが、トレーニングのスピードアップとモデルストレージコストの削減をもたらす、恥ずかしいほど単純である。
完全な微調整と比較すると、DiffFitは2$\times$トレーニングスピードアップを実現しており、全体のモデルパラメータの約0.12\%を格納する必要がある。
高速適応におけるスケーリング因子の有効性を正当化する直観的理論解析が提案されている。
下流の8つのデータセットでは、DiffFitはより効率的でありながら、完全な微調整よりも優れた、あるいは競争的なパフォーマンスを達成する。
注目すべきは、DiffFitが最小のコストを加えることで、訓練済みの低解像度生成モデルを高解像度に適応できることである。
拡散ベースの手法の中で、DiffFitはImageNet 512$\times$512ベンチマークで3.02の最先端FIDを新たに設定し、公開前のImageNet 256$\times$256チェックポイントから25エポックだけを微調整した。
関連論文リスト
- Diffusion Models Need Visual Priors for Image Generation [86.92260591389818]
Diffusion on Diffusion (DoD)は、先述したサンプルから視覚的先行情報を抽出し、拡散モデルのための豊富なガイダンスを提供する革新的な多段階生成フレームワークである。
我々は、人気のあるImageNet-$256 256$データセット上でDoDを評価し、SiTやDiTと比較して7$times$トレーニングコストを削減した。
私たちの最大のモデルであるDoD-XLは、FID-50Kスコアが1.83で、100万のトレーニングステップしか達成していません。
論文 参考訳(メタデータ) (2024-10-11T05:03:56Z) - FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-09-28T08:57:17Z) - SlimFlow: Training Smaller One-Step Diffusion Models with Rectified Flow [24.213303324584906]
我々は, 強力な整流フローフレームワークに基づく, 小型かつ効率的な1ステップ拡散モデルを構築した。
我々は、FIDが5.02と15.7Mの1ステップ拡散モデルを訓練し、従来の最先端1ステップ拡散モデルよりも優れている。
論文 参考訳(メタデータ) (2024-07-17T16:38:45Z) - DEFT: Efficient Fine-Tuning of Diffusion Models by Learning the Generalised $h$-transform [44.29325094229024]
DFT(Doob's h-transform Efficient FineTuning)は、非常に小さなネットワークを微調整して条件付き$h$-transformを高速に学習する条件生成手法である。
画像再構成作業では, 自然画像の知覚品質と医用画像の再現性能を最良に保ちながら, 最大1.6$times$の高速化を実現している。
論文 参考訳(メタデータ) (2024-06-03T20:52:34Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Patch Diffusion: Faster and More Data-Efficient Training of Diffusion
Models [166.64847903649598]
汎用的なパッチワイドトレーニングフレームワークであるPatch Diffusionを提案する。
Patch Diffusionは、データ効率を改善しながら、トレーニング時間を大幅に削減する。
我々は最先端のベンチマークと一致して優れたFIDスコアを得る。
論文 参考訳(メタデータ) (2023-04-25T02:35:54Z) - Efficient Diffusion Training via Min-SNR Weighting Strategy [78.5801305960993]
拡散学習をマルチタスク学習問題として扱い,Min-SNR-$gamma$と呼ばれるシンプルなアプローチを導入する。
本結果は,従来の重み付け手法よりも3.4$times$高速で収束速度が大幅に向上したことを示す。
さらに効果的で、ImageNetの256times256$ベンチマークで2.06の新たなFIDスコアを達成した。
論文 参考訳(メタデータ) (2023-03-16T17:59:56Z) - A Fast and Efficient Conditional Learning for Tunable Trade-Off between
Accuracy and Robustness [11.35810118757863]
クリーンかつ逆摂動画像上でのSOTA(State-of-the-art)性能を実現する既存のモデルは、FiLM(Feature-wise linear modulation)層を条件とした畳み込み操作に依存している。
既存のFiLMベースの条件付けの代わりに、付加層を必要としない独特な重み付き学習を行うFLOATアルゴリズムを提案する。
特に、重みテンソルにスケールドノイズを加え、クリーンな性能と対向的な性能のトレードオフを可能にする。
論文 参考訳(メタデータ) (2022-03-28T19:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。