論文の概要: Weight subcloning: direct initialization of transformers using larger
pretrained ones
- arxiv url: http://arxiv.org/abs/2312.09299v1
- Date: Thu, 14 Dec 2023 19:08:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 17:57:50.028873
- Title: Weight subcloning: direct initialization of transformers using larger
pretrained ones
- Title(参考訳): 重量サブクローニング:大型予行変圧器を用いた変圧器の直接初期化
- Authors: Mohammad Samragh, Mehrdad Farajtabar, Sachin Mehta, Raviteja
Vemulapalli, Fartash Faghri, Devang Naik, Oncel Tuzel, Mohammad Rastegari
- Abstract要約: 本稿では,事前学習されたモデルの知識をより小さな変種に伝達する手法を提案する。
ウェイト・サブクロニングは、より大きな事前訓練モデルからウェイトを初期化することにより、スケールダウン・トランスフォーマーのトレーニングを高速化する。
我々は、次のトークン予測のために設計された画像分類と言語モデルにおいて、視覚変換器の4倍高速なトレーニングを実現する。
- 参考スコア(独自算出の注目度): 42.056148990349094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large transformer models from scratch for a target task requires
lots of data and is computationally demanding. The usual practice of transfer
learning overcomes this challenge by initializing the model with weights of a
pretrained model of the same size and specification to increase the convergence
and training speed. However, what if no pretrained model of the required size
is available? In this paper, we introduce a simple yet effective technique to
transfer the knowledge of a pretrained model to smaller variants. Our approach
called weight subcloning expedites the training of scaled-down transformers by
initializing their weights from larger pretrained models.
Weight subcloning involves an operation on the pretrained model to obtain the
equivalent initialized scaled-down model. It consists of two key steps: first,
we introduce neuron importance ranking to decrease the embedding dimension per
layer in the pretrained model. Then, we remove blocks from the transformer
model to match the number of layers in the scaled-down network. The result is a
network ready to undergo training, which gains significant improvements in
training speed compared to random initialization. For instance, we achieve 4x
faster training for vision transformers in image classification and language
models designed for next token prediction.
- Abstract(参考訳): ターゲットタスクのためにスクラッチから大きなトランスフォーマーモデルをトレーニングするには、大量のデータが必要であり、計算的に要求される。
トランスファーラーニングの通常の実践は、同じサイズの事前訓練モデルと仕様の重み付けでモデルを初期化し、収束とトレーニング速度を高めることで、この課題を克服する。
しかし、必要サイズの事前学習されたモデルがない場合はどうだろう?
本稿では,事前学習モデルの知識をより小さな変種に伝達する,単純かつ効果的な手法を提案する。
重みサブクローニング(weight subcloning)と呼ばれるアプローチは、より大型の事前訓練モデルから重みを初期化することで、スケールダウントランスフォーマーのトレーニングを迅速化する。
ウェイトサブクローニングは、事前訓練されたモデルで等価な初期化スケールダウンモデルを得るための操作を含む。
まず,ニューロンの重要度ランキングを導入し,事前学習したモデルにおける層毎の埋め込み次元を減少させる。
そして、スケールダウンネットワークの層数に一致するように、トランスモデルからブロックを除去する。
その結果、トレーニングの準備が整ったネットワークとなり、ランダム初期化に比べてトレーニング速度が大幅に向上する。
例えば、画像分類および次のトークン予測用に設計された言語モデルにおいて、視覚トランスフォーマーのトレーニングを4倍高速化する。
関連論文リスト
- Efficient Training with Denoised Neural Weights [65.14892033932895]
この研究は、初期化のために神経重みを合成するウェイトジェネレータを構築するための新しい一歩を踏み出した。
本稿では,モデル重みの収集を容易にするために,GANを用いた画像間翻訳タスクを例に挙げる。
拡散モデルによって予測される重み付き画像翻訳モデルを初期化することにより、トレーニングは43.3秒しか必要としない。
論文 参考訳(メタデータ) (2024-07-16T17:59:42Z) - Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。
実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-11-30T18:58:26Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Staged Training for Transformer Language Models [47.99321376123886]
私たちは、小さなモデルから始まり、トレーニングに使用する計算量を漸進的に増加させる、段階的なトレーニング設定を考えます。
トレーニングプロセスは、各ステージを前のステージの出力で初期化することにより、計算を効果的に再利用する。
成長オペレーターを実証的に検証し、自己回帰言語モデルのトレーニングを行い、最大22%の計算貯蓄量を示した。
論文 参考訳(メタデータ) (2022-03-11T19:05:42Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。