論文の概要: FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models
- arxiv url: http://arxiv.org/abs/2409.19289v1
- Date: Sat, 28 Sep 2024 08:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 00:08:33.402712
- Title: FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models
- Title(参考訳): FINE:可変サイズの拡散モデルの初期化のための因子化知識
- Authors: Yucheng Xie, Fu Feng, Ruixiao Shi, Jing Wang, Xin Geng,
- Abstract要約: FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 35.40065954148091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models often face slow convergence, and existing efficient training techniques, such as Parameter-Efficient Fine-Tuning (PEFT), are primarily designed for fine-tuning pre-trained models. However, these methods are limited in adapting models to variable sizes for real-world deployment, where no corresponding pre-trained models exist. To address this, we introduce FINE, a method based on the Learngene framework, to initializing downstream networks leveraging pre-trained models, while considering both model sizes and task-specific requirements. FINE decomposes pre-trained knowledge into the product of matrices (i.e., $U$, $\Sigma$, and $V$), where $U$ and $V$ are shared across network blocks as ``learngenes'', and $\Sigma$ remains layer-specific. During initialization, FINE trains only $\Sigma$ using a small subset of data, while keeping the learngene parameters fixed, marking it the first approach to integrate both size and task considerations in initialization. We provide a comprehensive benchmark for learngene-based methods in image generation tasks, and extensive experiments demonstrate that FINE consistently outperforms direct pre-training, particularly for smaller models, achieving state-of-the-art results across variable model sizes. FINE also offers significant computational and storage savings, reducing training steps by approximately $3N\times$ and storage by $5\times$, where $N$ is the number of models. Additionally, FINE's adaptability to tasks yields an average performance improvement of 4.29 and 3.30 in FID and sFID across multiple downstream datasets, highlighting its versatility and efficiency.
- Abstract(参考訳): 拡散モデルは、しばしば緩やかな収束に直面し、パラメータ効率の良い微調整(PEFT)のような既存の効率的な訓練技術は、主に微調整された事前訓練モデルのために設計されている。
しかし、これらの手法は、対応する事前訓練されたモデルが存在しない実世界展開のための可変サイズにモデルを適用する場合に限られる。
そこで本研究では,モデルサイズとタスク固有の要件の両方を考慮して,事前学習モデルを活用した下流ネットワークを初期化するための,Learngeneフレームワークに基づくFINEを提案する。
FINE は事前学習した知識を行列の積 ($U$, $\Sigma$, $V$) に分解し、$U$ と $V$ はネットワークブロック間で `learngenes'' として共有され、$\Sigma$ は層固有のままである。
初期化中、FINE はデータの小さなサブセットを使用して $\Sigma$ のみをトレーニングする一方で、re learngene パラメータを固定し、初期化においてサイズとタスクの考慮事項を統合する最初のアプローチをマークしている。
画像生成タスクにおける学習遺伝子に基づく手法の総合的なベンチマークを行い、FINEが直接事前学習、特に小型モデルにおいて一貫して性能を向上し、可変モデルサイズで最先端の結果が得られることを示した。
FINEはまた、計算とストレージの大幅な節約を提供し、トレーニング手順を約$3N\times$、ストレージを$5\times$で削減している。
さらに、タスクへのFINEの適応性は、複数の下流データセットにわたるFIDとsFIDで平均4.29と3.30のパフォーマンス改善をもたらし、その汎用性と効率性を強調している。
関連論文リスト
- KIND: Knowledge Integration and Diversion in Diffusion Models [40.442303050947395]
拡散モデルにおいてtextbfKnowledge textbfINtegration と textbfDiversion を実行する textbfKIND を導入する。
KINDは、現在のタスクにおけるモデルパフォーマンスの最大化から、伝達可能な共通知識の凝縮までのトレーニング目標を調整することで、従来の事前学習手法を再定義する。
その結果,KINDは,他のPEFT法や学習遺伝子法と比較して最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-14T07:22:28Z) - Exploring Learngene via Stage-wise Weight Sharing for Initializing Variable-sized Models [40.21274215353816]
本稿では,大規模な学習モデルから学習遺伝子と呼ばれる1つのコンパクトな部分を学習するLearngeneフレームワークを紹介する。
次に、対応するステージ情報を含むこれらの学習遺伝子層を拡張して、可変深さのモデルを初期化する。
ImageNet-1Kの実験では、SWSはスクラッチからトレーニングされた多くのモデルと比較して一貫したパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-04-25T06:04:34Z) - Fisher Mask Nodes for Language Model Merging [0.0]
本稿では,トランスフォーマーの新たなモデルマージ手法について紹介し,フィッシャー重み付けにおける過去の研究成果とモデルプルーニングにおけるフィッシャー情報の利用について考察する。
提案手法は,BERTファミリーの各種モデルに対して,正規かつ顕著な性能向上を示し,計算コストのごく一部において,大規模フィッシャー重み付き平均値よりも優れていた。
論文 参考訳(メタデータ) (2024-03-14T21:52:26Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Building Variable-sized Models via Learngene Pool [39.99697115082106]
近年,Stitchable Neural Networks (SN-Net) が提案されている。
SN-Netはリソース制約の少ないモデルを構築するという課題に直面している。
本稿ではこれらの課題を克服するために,Leargen Poolと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:46:01Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。