論文の概要: Linear Combination of Saved Checkpoints Makes Consistency and Diffusion Models Better
- arxiv url: http://arxiv.org/abs/2404.02241v2
- Date: Mon, 8 Apr 2024 02:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 23:56:54.029384
- Title: Linear Combination of Saved Checkpoints Makes Consistency and Diffusion Models Better
- Title(参考訳): 保存チェックポイントの線形結合による一貫性と拡散モデルの改善
- Authors: Enshu Liu, Junyi Zhu, Zinan Lin, Xuefei Ning, Matthew B. Blaschko, Sergey Yekhanin, Shengen Yan, Guohao Dai, Huazhong Yang, Yu Wang,
- Abstract要約: Diffusion Models (DM) と Consistency Models (CM) は、様々なタスクにおいて優れた生成品質を持つ人気のある生成モデルである。
本研究では,SGDでは到達できないが,適切なチェックポイント平均化によって得られるような,高品質なモデルウェイトがしばしば存在することを明らかにする。
進化探索から導出される係数とトレーニング軌道に沿ったチェックポイントを組み合わせることで,DMとCMの性能を向上させる,シンプルで効率的かつ効率的なLCSCを提案する。
- 参考スコア(独自算出の注目度): 31.67038902035949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Models (DM) and Consistency Models (CM) are two types of popular generative models with good generation quality on various tasks. When training DM and CM, intermediate weight checkpoints are not fully utilized and only the last converged checkpoint is used. In this work, we find that high-quality model weights often lie in a basin which cannot be reached by SGD but can be obtained by proper checkpoint averaging. Based on these observations, we propose LCSC, a simple but effective and efficient method to enhance the performance of DM and CM, by combining checkpoints along the training trajectory with coefficients deduced from evolutionary search. We demonstrate the value of LCSC through two use cases: $\textbf{(a) Reducing training cost.}$ With LCSC, we only need to train DM/CM with fewer number of iterations and/or lower batch sizes to obtain comparable sample quality with the fully trained model. For example, LCSC achieves considerable training speedups for CM (23$\times$ on CIFAR-10 and 15$\times$ on ImageNet-64). $\textbf{(b) Enhancing pre-trained models.}$ Assuming full training is already done, LCSC can further improve the generation quality or speed of the final converged models. For example, LCSC achieves better performance using 1 number of function evaluation (NFE) than the base model with 2 NFE on consistency distillation, and decreases the NFE of DM from 15 to 9 while maintaining the generation quality on CIFAR-10. Our code is available at https://github.com/imagination-research/LCSC.
- Abstract(参考訳): Diffusion Models (DM) と Consistency Models (CM) は、様々なタスクにおいて優れた生成品質を持つ人気のある生成モデルである。
トレーニングDMとCMでは、中間重みチェックポイントが十分に活用されず、最後の収束チェックポイントのみが使用される。
本研究では,SGDでは到達できないが,適切なチェックポイント平均化によって得られるような,高品質なモデルウェイトがしばしば存在することを明らかにする。
そこで本研究では,DMとCMの性能向上のための簡易かつ効率的なLCSCを提案し,学習軌道に沿ったチェックポイントと進化探索から導出される係数を組み合わせた。
LCSCの値は2つのユースケースを通して示します。
(a)訓練費の削減。
LCSCでは、完全にトレーニングされたモデルと同等のサンプル品質を得るために、DM/CMを少ないイテレーション数と/または低いバッチサイズでトレーニングするだけです。
例えば、LCSCはCMのトレーニングスピードアップ(CIFAR-10では23$\times$、ImageNet-64では15$\times$)を実現している。
$\textbf{
(b)事前訓練モデルの導入。
フルトレーニングがすでに完了していると仮定すると、LCSCは最終的な収束モデルの生成品質や速度をさらに向上させることができる。
例えば, LCSCは, CIFAR-10 の生成品質を維持しながら, 2 NFE の連続蒸留における基本モデルよりも 1 個の関数評価 (NFE) により優れた性能を実現し, DM の NFE を 15 から 9 に減少させる。
私たちのコードはhttps://github.com/imagination-research/LCSC.comで公開されています。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Consistency Models Made Easy [49.16601441878957]
ECT(Easy Consistency Tuning)は、従来の方法を改善しながら、トレーニング時間を大幅に短縮する。
ECTは1つのA100 GPU上で1時間以内にCIFAR10上の2ステップFIDの2.73を達成し、数百GPU時間トレーニングされた一貫性蒸留と一致する。
私たちのコードは公開されており、CMはより広いコミュニティでよりアクセスしやすくしています。
論文 参考訳(メタデータ) (2024-06-20T17:56:02Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Early Weight Averaging meets High Learning Rates for LLM Pre-training [20.671831210738937]
高い学習率で訓練されたモデルは、チェックポイント平均化により、より高い利得を観測できることを示す。
トレーニングレシピは、従来のトレーニングと一般的なチェックポイント平均基準よりも優れています。
論文 参考訳(メタデータ) (2023-06-05T20:51:44Z) - Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - Ensembling Off-the-shelf Models for GAN Training [55.34705213104182]
事前学習されたコンピュータビジョンモデルは、識別器のアンサンブルで使用する場合、性能を著しく向上させることができる。
本研究では,事前学習したモデル埋め込みにおける実検体と偽検体間の線形分離性を検証し,効率的な選択機構を提案する。
本手法は, 限られたデータと大規模設定の両方において, GAN トレーニングを改善することができる。
論文 参考訳(メタデータ) (2021-12-16T18:59:50Z) - Semi-supervised Image Classification with Grad-CAM Consistency [0.0]
我々はGrad-CAM整合性損失のある別のバージョンを提案する。
提案手法はベースラインResNetモデルを1.44 %,0.31 $pm = 0.59 %pの精度で改善した。
論文 参考訳(メタデータ) (2021-08-31T08:26:35Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。