論文の概要: Reusing Pretrained Models by Multi-linear Operators for Efficient
Training
- arxiv url: http://arxiv.org/abs/2310.10699v1
- Date: Mon, 16 Oct 2023 06:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 19:35:54.985715
- Title: Reusing Pretrained Models by Multi-linear Operators for Efficient
Training
- Title(参考訳): 効率的な訓練のための多線形演算子による事前学習モデルの再利用
- Authors: Yu Pan, Ye Yuan, Yichun Yin, Zenglin Xu, Lifeng Shang, Xin Jiang, Qun
Liu
- Abstract要約: 大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
- 参考スコア(独自算出の注目度): 65.64075958382034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large models from scratch usually costs a substantial amount of
resources. Towards this problem, recent studies such as bert2BERT and LiGO have
reused small pretrained models to initialize a large model (termed the ``target
model''), leading to a considerable acceleration in training. Despite the
successes of these previous studies, they grew pretrained models by mapping
partial weights only, ignoring potential correlations across the entire model.
As we show in this paper, there are inter- and intra-interactions among the
weights of both the pretrained and the target models. As a result, the partial
mapping may not capture the complete information and lead to inadequate growth.
In this paper, we propose a method that linearly correlates each weight of the
target model to all the weights of the pretrained model to further enhance
acceleration ability. We utilize multi-linear operators to reduce computational
and spacial complexity, enabling acceptable resource requirements. Experiments
demonstrate that our method can save 76\% computational costs on DeiT-base
transferred from DeiT-small, which outperforms bert2BERT by +12.0\% and LiGO by
+20.7\%, respectively.
- Abstract(参考訳): 大きなモデルをスクラッチからトレーニングするには、通常はかなりのリソースが必要です。
この問題に向けて、bert2bertやligoといった最近の研究は、大きなモデル("target model"と呼ばれる)を初期化するために、小さな事前訓練されたモデルを再利用している。
これらの研究の成功にもかかわらず、彼らは部分重みのみをマッピングし、モデル全体の潜在的な相関を無視して事前訓練されたモデルを成長させた。
本稿で示すように,前訓練モデルと目標モデルの重みの間には,相互相互作用と内相互作用が存在する。
その結果、部分写像は完全な情報を捉えず、不適切な成長をもたらす可能性がある。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させて加速能力を向上する手法を提案する。
マルチ線形演算子を用いて計算と空間の複雑さを低減し、許容できるリソース要求を実現する。
実験により,DeiT-smallから転送されるDeiT-smallの計算コストは76 %であり,それぞれ bert2BERT を+12.0\%,LiGO を+20.7\% で上回ることがわかった。
関連論文リスト
- On the Surprising Efficacy of Distillation as an Alternative to Pre-Training Small Models [7.062887337934677]
我々は、小モデルがその利点を享受するために事前学習のコストを吸収する必要がないことを提案する。
事前訓練されたモデルからタスクを蒸留すると、そのタスクで事前訓練されたり微調整されたりした場合、小さなモデルで達成される性能を達成または超えることが観察された。
論文 参考訳(メタデータ) (2024-04-04T07:38:11Z) - Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。
実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-11-30T18:58:26Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Transfer training from smaller language model [6.982133308738434]
小型の訓練済みモデルを大規模モデルに変更することで、トレーニング時間とリソースコストを節約する方法を見つけます。
ターゲットモデルを複数のデータセットでテストし、ソースモデルといまだに同等であることを示す。
論文 参考訳(メタデータ) (2021-04-23T02:56:02Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。