論文の概要: Exploring Learngene via Stage-wise Weight Sharing for Initializing Variable-sized Models
- arxiv url: http://arxiv.org/abs/2404.16897v1
- Date: Thu, 25 Apr 2024 06:04:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 15:03:56.057701
- Title: Exploring Learngene via Stage-wise Weight Sharing for Initializing Variable-sized Models
- Title(参考訳): 可変サイズモデルの初期化のための段階的ウェイトシェアリングによる学習遺伝子探索
- Authors: Shi-Yu Xia, Wenxuan Zhu, Xu Yang, Xin Geng,
- Abstract要約: 本稿では,大規模な学習モデルから学習遺伝子と呼ばれる1つのコンパクトな部分を学習するLearngeneフレームワークを紹介する。
次に、対応するステージ情報を含むこれらの学習遺伝子層を拡張して、可変深さのモデルを初期化する。
ImageNet-1Kの実験では、SWSはスクラッチからトレーニングされた多くのモデルと比較して一貫したパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 40.21274215353816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In practice, we usually need to build variable-sized models adapting for diverse resource constraints in different application scenarios, where weight initialization is an important step prior to training. The Learngene framework, introduced recently, firstly learns one compact part termed as learngene from a large well-trained model, after which learngene is expanded to initialize variable-sized models. In this paper, we start from analysing the importance of guidance for the expansion of well-trained learngene layers, inspiring the design of a simple but highly effective Learngene approach termed SWS (Stage-wise Weight Sharing), where both learngene layers and their learning process critically contribute to providing knowledge and guidance for initializing models at varying scales. Specifically, to learn learngene layers, we build an auxiliary model comprising multiple stages where the layer weights in each stage are shared, after which we train it through distillation. Subsequently, we expand these learngene layers containing stage information at their corresponding stage to initialize models of variable depths. Extensive experiments on ImageNet-1K demonstrate that SWS achieves consistent better performance compared to many models trained from scratch, while reducing around 6.6x total training costs. In some cases, SWS performs better only after 1 epoch tuning. When initializing variable-sized models adapting for different resource constraints, SWS achieves better results while reducing around 20x parameters stored to initialize these models and around 10x pre-training costs, in contrast to the pre-training and fine-tuning approach.
- Abstract(参考訳): 実際には、トレーニングの前に重み付け初期化が重要なステップであるさまざまなアプリケーションシナリオにおいて、さまざまなリソース制約に適応する可変サイズのモデルを構築する必要があります。
最近導入されたLeargenフレームワークは、まず大きな訓練されたモデルからLeargenと呼ばれるコンパクトな部分を学習し、その後、Leargenを拡張して可変サイズのモデルを初期化する。
本稿では,SWS(Stage-wise Weight Sharing)と呼ばれるシンプルで高効率な学習遺伝子アプローチの設計を刺激し,学習遺伝子層と学習プロセスの両方が,様々なスケールでモデルの初期化のための知識とガイダンスの提供に重要な貢献をする,訓練された学習遺伝子層の拡張のためのガイダンスの重要性を分析することから始める。
具体的には,学習層を学習するために,各段階の重みが共有される複数の段階からなる補助モデルを構築し,その後蒸留により学習する。
その後、ステージ情報を含むこれらの学習遺伝子層を拡張し、可変深さのモデルを初期化する。
ImageNet-1Kの大規模な実験では、SWSはスクラッチからトレーニングされた多くのモデルと比較して一貫したパフォーマンスを実現し、総トレーニングコストは6.6倍である。
場合によっては、SWSは1エポックチューニング後にのみパフォーマンスが向上する。
異なるリソース制約に適応する変数サイズのモデルを初期化する場合、SWSは、これらのモデルを初期化するための20倍のパラメータと、事前学習と微調整のアプローチとは対照的な10倍の事前学習コストを削減しながら、より良い結果を達成する。
関連論文リスト
- FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-09-28T08:57:17Z) - POA: Pre-training Once for Models of All Sizes [33.72644336390202]
我々はPOA(Pre-Treating Once for All)と呼ばれる新しい三枝型自己教師型トレーニングフレームワークを提案する。
我々のアプローチは、革新的な弾性的な学生分岐を近代的な自己蒸留パラダイムに導入する。
ViT、Swin Transformer、ResNetのバックボーンを使って最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-08-02T06:13:29Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - Towards Foundation Models for Scientific Machine Learning:
Characterizing Scaling and Transfer Behavior [32.74388989649232]
我々は、科学機械学習(SciML)の応用において、事前学習をどのように利用できるかを研究する。
これらのモデルを微調整すると、モデルのサイズが大きくなるにつれてパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2023-06-01T00:32:59Z) - PAC-Net: A Model Pruning Approach to Inductive Transfer Learning [16.153557870191488]
PAC-Netは、プルーニングに基づく伝達学習において、シンプルだが効果的なアプローチである。
PAC-NetはPrune、Allocate、Calibrateの3つのステップで構成されている。
様々な多種多様な帰納的伝達学習実験において,本手法は最先端の性能を高いマージンで達成することを示す。
論文 参考訳(メタデータ) (2022-06-12T09:45:16Z) - Class-Incremental Learning with Strong Pre-trained Models [97.84755144148535]
CIL(Class-incremental Learning)は、少数のクラス(ベースクラス)から始まる設定で広く研究されている。
我々は、多数のベースクラスで事前訓練された強力なモデルから始まるCILの実証済み実世界の設定について検討する。
提案手法は、解析されたCIL設定すべてに頑健で一般化されている。
論文 参考訳(メタデータ) (2022-04-07T17:58:07Z) - Efficient Learning of Model Weights via Changing Features During
Training [0.0]
学習中の特徴を動的に変化させる機械学習モデルを提案する。
私たちの主な動機は、トレーニングプロセス中に小さなコンテンツでモデルを更新し、より説明力の少ない機能を大きなプールから新しいものに置き換えることです。
論文 参考訳(メタデータ) (2020-02-21T12:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。