Fugu-MT 論文翻訳(概要): DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-Tuning

論文の概要: DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-Tuning

arxiv url: http://arxiv.org/abs/2304.06648v1
Date: Thu, 13 Apr 2023 16:17:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-14 13:48:34.657685
Title: DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-Tuning
Title（参考訳）: DiffFit: 簡単なパラメータ効率の良い微調整による大拡散モデルの解錠性
Authors: Enze Xie, Lewei Yao, Han Shi, Zhili Liu, Daquan Zhou, Zhaoqiang Liu, Jiawei Li, Zhenguo Li
Abstract要約: 本稿ではDiffFitを提案する。DiffFitは大規模な事前学習拡散モデルを微調整するためのパラメータ効率の戦略である。完全な微調整と比較すると、DiffFitは2$times$のトレーニングスピードアップを実現しており、全体のモデルパラメータの0.12%を格納する必要がある。注目すべきは、DiffFitが最小のコストを加えることで、訓練済みの低解像度生成モデルを高解像度に適応できることである。
参考スコア（独自算出の注目度）: 51.151805100550625
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have proven to be highly effective in generating high-quality images. However, adapting large pre-trained diffusion models to new domains remains an open challenge, which is critical for real-world applications. This paper proposes DiffFit, a parameter-efficient strategy to fine-tune large pre-trained diffusion models that enable fast adaptation to new domains. DiffFit is embarrassingly simple that only fine-tunes the bias term and newly-added scaling factors in specific layers, yet resulting in significant training speed-up and reduced model storage costs. Compared with full fine-tuning, DiffFit achieves 2$\times$ training speed-up and only needs to store approximately 0.12\% of the total model parameters. Intuitive theoretical analysis has been provided to justify the efficacy of scaling factors on fast adaptation. On 8 downstream datasets, DiffFit achieves superior or competitive performances compared to the full fine-tuning while being more efficient. Remarkably, we show that DiffFit can adapt a pre-trained low-resolution generative model to a high-resolution one by adding minimal cost. Among diffusion-based methods, DiffFit sets a new state-of-the-art FID of 3.02 on ImageNet 512$\times$512 benchmark by fine-tuning only 25 epochs from a public pre-trained ImageNet 256$\times$256 checkpoint while being 30$\times$ more training efficient than the closest competitor.
Abstract（参考訳）: 拡散モデルは高品質な画像の生成に非常に有効であることが証明されている。しかし、大規模な事前学習拡散モデルを新しい領域に適用することは、現実世界のアプリケーションにとって重要な課題である。本稿では,新しい領域への高速適応を可能にする大規模事前学習拡散モデルを微調整するパラメータ効率の高い手法であるdifffitを提案する。 DiffFitは、特定のレイヤでバイアス項と新たに追加されたスケーリング要素のみを微調整するが、トレーニングのスピードアップとモデルストレージコストの削減をもたらす、恥ずかしいほど単純である。完全な微調整と比較すると、DiffFitは2$\times$トレーニングスピードアップを実現しており、全体のモデルパラメータの約0.12\%を格納する必要がある。高速適応におけるスケーリング因子の有効性を正当化する直観的理論解析が提案されている。下流の8つのデータセットでは、DiffFitはより効率的でありながら、完全な微調整よりも優れた、あるいは競争的なパフォーマンスを達成する。注目すべきは、DiffFitが最小のコストを加えることで、訓練済みの低解像度生成モデルを高解像度に適応できることである。拡散ベースの手法の中で、DiffFitはImageNet 512$\times$512ベンチマークで3.02の最先端FIDを新たに設定し、公開前のImageNet 256$\times$256チェックポイントから25エポックだけを微調整した。

関連論文リスト

P$^2$U: Progressive Precision Update For Efficient Model Distribution [2.3349787245442966]
この問題に対処するために,プログレッシブ精度更新(P$2$U)を提案する。元の高精度モデルを送信する代わりに、P$2$Uは低ビット精度モデルを送信する。 P$2$Uは、精度、帯域幅使用量、レイテンシのトレードオフを一貫して達成する。
論文参考訳（メタデータ） (2025-06-28T12:47:04Z)
Diffusion Models without Classifier-free Guidance [41.59396565229466]
モデルガイダンス(MG)は拡散モデルアドレスを訓練するための新しい目的であり、よく使われるガイダンス(CFG)を除去する。我々の革新的なアプローチは、標準モデリングを超越し、条件の後方確率を組み込む。提案手法は,CFGを用いた並列拡散モデルにおいても,学習過程を著しく加速し,推論速度を2倍にし,並列拡散モデルでさえ並列に超える異常な品質を実現する。
論文参考訳（メタデータ） (2025-02-17T18:59:50Z)
Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets [65.42834731617226]
そこで我々は,Nabla-GFlowNetと呼ばれる拡散モデルファインタニングのための強化学習手法を提案する。提案手法は,大規模テキスト条件による画像拡散モデルである安定拡散の高速かつ多様かつ事前保存的な微調整を実現する。
論文参考訳（メタデータ） (2024-12-10T18:59:58Z)
Diffusion Models Need Visual Priors for Image Generation [86.92260591389818]
Diffusion on Diffusion (DoD)は、先述したサンプルから視覚的先行情報を抽出し、拡散モデルのための豊富なガイダンスを提供する革新的な多段階生成フレームワークである。我々は、人気のあるImageNet-$256 256$データセット上でDoDを評価し、SiTやDiTと比較して7$times$トレーニングコストを削減した。私たちの最大のモデルであるDoD-XLは、FID-50Kスコアが1.83で、100万のトレーニングステップしか達成していません。
論文参考訳（メタデータ） (2024-10-11T05:03:56Z)
FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文参考訳（メタデータ） (2024-09-28T08:57:17Z)
SlimFlow: Training Smaller One-Step Diffusion Models with Rectified Flow [24.213303324584906]
我々は, 強力な整流フローフレームワークに基づく, 小型かつ効率的な1ステップ拡散モデルを構築した。我々は、FIDが5.02と15.7Mの1ステップ拡散モデルを訓練し、従来の最先端1ステップ拡散モデルよりも優れている。
論文参考訳（メタデータ） (2024-07-17T16:38:45Z)
DEFT: Efficient Fine-Tuning of Diffusion Models by Learning the Generalised $h$-transform [44.29325094229024]
DFT(Doob's h-transform Efficient FineTuning)は、非常に小さなネットワークを微調整して条件付き$h$-transformを高速に学習する条件生成手法である。画像再構成作業では, 自然画像の知覚品質と医用画像の再現性能を最良に保ちながら, 最大1.6$times$の高速化を実現している。
論文参考訳（メタデータ） (2024-06-03T20:52:34Z)
DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。 DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文参考訳（メタデータ） (2023-12-01T17:01:06Z)
ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。 CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文参考訳（メタデータ） (2023-11-23T16:49:06Z)
Patch Diffusion: Faster and More Data-Efficient Training of Diffusion Models [166.64847903649598]
汎用的なパッチワイドトレーニングフレームワークであるPatch Diffusionを提案する。 Patch Diffusionは、データ効率を改善しながら、トレーニング時間を大幅に削減する。我々は最先端のベンチマークと一致して優れたFIDスコアを得る。
論文参考訳（メタデータ） (2023-04-25T02:35:54Z)
Efficient Diffusion Training via Min-SNR Weighting Strategy [78.5801305960993]
拡散学習をマルチタスク学習問題として扱い,Min-SNR-$gamma$と呼ばれるシンプルなアプローチを導入する。本結果は,従来の重み付け手法よりも3.4$times$高速で収束速度が大幅に向上したことを示す。さらに効果的で、ImageNetの256times256$ベンチマークで2.06の新たなFIDスコアを達成した。
論文参考訳（メタデータ） (2023-03-16T17:59:56Z)
A Fast and Efficient Conditional Learning for Tunable Trade-Off between Accuracy and Robustness [11.35810118757863]
クリーンかつ逆摂動画像上でのSOTA(State-of-the-art)性能を実現する既存のモデルは、FiLM(Feature-wise linear modulation)層を条件とした畳み込み操作に依存している。既存のFiLMベースの条件付けの代わりに、付加層を必要としない独特な重み付き学習を行うFLOATアルゴリズムを提案する。特に、重みテンソルにスケールドノイズを加え、クリーンな性能と対向的な性能のトレードオフを可能にする。
論文参考訳（メタデータ） (2022-03-28T19:25:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。