論文の概要: FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models
- arxiv url: http://arxiv.org/abs/2409.19289v1
- Date: Sat, 28 Sep 2024 08:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:04:27.197213
- Title: FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models
- Title(参考訳): FINE:可変サイズの拡散モデルの初期化のための因子化知識
- Authors: Yucheng Xie, Fu Feng, Ruixiao Shi, Jing Wang, Xin Geng,
- Abstract要約: FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 35.40065954148091
- License:
- Abstract: Diffusion models often face slow convergence, and existing efficient training techniques, such as Parameter-Efficient Fine-Tuning (PEFT), are primarily designed for fine-tuning pre-trained models. However, these methods are limited in adapting models to variable sizes for real-world deployment, where no corresponding pre-trained models exist. To address this, we introduce FINE, a method based on the Learngene framework, to initializing downstream networks leveraging pre-trained models, while considering both model sizes and task-specific requirements. FINE decomposes pre-trained knowledge into the product of matrices (i.e., $U$, $\Sigma$, and $V$), where $U$ and $V$ are shared across network blocks as ``learngenes'', and $\Sigma$ remains layer-specific. During initialization, FINE trains only $\Sigma$ using a small subset of data, while keeping the learngene parameters fixed, marking it the first approach to integrate both size and task considerations in initialization. We provide a comprehensive benchmark for learngene-based methods in image generation tasks, and extensive experiments demonstrate that FINE consistently outperforms direct pre-training, particularly for smaller models, achieving state-of-the-art results across variable model sizes. FINE also offers significant computational and storage savings, reducing training steps by approximately $3N\times$ and storage by $5\times$, where $N$ is the number of models. Additionally, FINE's adaptability to tasks yields an average performance improvement of 4.29 and 3.30 in FID and sFID across multiple downstream datasets, highlighting its versatility and efficiency.
- Abstract(参考訳): 拡散モデルは、しばしば緩やかな収束に直面し、パラメータ効率の良い微調整(PEFT)のような既存の効率的な訓練技術は、主に微調整された事前訓練モデルのために設計されている。
しかし、これらの手法は、対応する事前訓練されたモデルが存在しない実世界展開のための可変サイズにモデルを適用する場合に限られる。
そこで本研究では,モデルサイズとタスク固有の要件の両方を考慮して,事前学習モデルを活用した下流ネットワークを初期化するための,Learngeneフレームワークに基づくFINEを提案する。
FINE は事前学習した知識を行列の積 ($U$, $\Sigma$, $V$) に分解し、$U$ と $V$ はネットワークブロック間で `learngenes'' として共有され、$\Sigma$ は層固有のままである。
初期化中、FINE はデータの小さなサブセットを使用して $\Sigma$ のみをトレーニングする一方で、re learngene パラメータを固定し、初期化においてサイズとタスクの考慮事項を統合する最初のアプローチをマークしている。
画像生成タスクにおける学習遺伝子に基づく手法の総合的なベンチマークを行い、FINEが直接事前学習、特に小型モデルにおいて一貫して性能を向上し、可変モデルサイズで最先端の結果が得られることを示した。
FINEはまた、計算とストレージの大幅な節約を提供し、トレーニング手順を約$3N\times$、ストレージを$5\times$で削減している。
さらに、タスクへのFINEの適応性は、複数の下流データセットにわたるFIDとsFIDで平均4.29と3.30のパフォーマンス改善をもたらし、その汎用性と効率性を強調している。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Exploring Learngene via Stage-wise Weight Sharing for Initializing Variable-sized Models [40.21274215353816]
本稿では,大規模な学習モデルから学習遺伝子と呼ばれる1つのコンパクトな部分を学習するLearngeneフレームワークを紹介する。
次に、対応するステージ情報を含むこれらの学習遺伝子層を拡張して、可変深さのモデルを初期化する。
ImageNet-1Kの実験では、SWSはスクラッチからトレーニングされた多くのモデルと比較して一貫したパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-04-25T06:04:34Z) - Fisher Mask Nodes for Language Model Merging [0.0]
本稿では,トランスフォーマーの新たなモデルマージ手法について紹介し,フィッシャー重み付けにおける過去の研究成果とモデルプルーニングにおけるフィッシャー情報の利用について考察する。
提案手法は,BERTファミリーの各種モデルに対して,正規かつ顕著な性能向上を示し,計算コストのごく一部において,大規模フィッシャー重み付き平均値よりも優れていた。
論文 参考訳(メタデータ) (2024-03-14T21:52:26Z) - Building Variable-sized Models via Learngene Pool [39.99697115082106]
近年,Stitchable Neural Networks (SN-Net) が提案されている。
SN-Netはリソース制約の少ないモデルを構築するという課題に直面している。
本稿ではこれらの課題を克服するために,Leargen Poolと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:46:01Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。