論文の概要: Learning to Grow Pretrained Models for Efficient Transformer Training
- arxiv url: http://arxiv.org/abs/2303.00980v1
- Date: Thu, 2 Mar 2023 05:21:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 15:50:44.933899
- Title: Learning to Grow Pretrained Models for Efficient Transformer Training
- Title(参考訳): 効率的な変圧器訓練のための事前学習モデルの構築
- Authors: Peihao Wang, Rameswar Panda, Lucas Torroba Hennigen, Philip Greengard,
Leonid Karlinsky, Rogerio Feris, David Daniel Cox, Zhangyang Wang, Yoon Kim
- Abstract要約: そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
- 参考スコア(独自算出の注目度): 72.20676008625641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling transformers has led to significant breakthroughs in many domains,
leading to a paradigm in which larger versions of existing models are trained
and released on a periodic basis. New instances of such models are typically
trained completely from scratch, despite the fact that they are often just
scaled-up versions of their smaller counterparts. How can we use the implicit
knowledge in the parameters of smaller, extant models to enable faster training
of newer, larger models? This paper describes an approach for accelerating
transformer training by learning to grow pretrained transformers, where we
learn to linearly map the parameters of the smaller model to initialize the
larger model. For tractable learning, we factorize the linear transformation as
a composition of (linear) width- and depth-growth operators, and further employ
a Kronecker factorization of these growth operators to encode architectural
knowledge. Extensive experiments across both language and vision transformers
demonstrate that our learned Linear Growth Operator (LiGO) can save up to 50%
computational cost of training from scratch, while also consistently
outperforming strong baselines that also reuse smaller pretrained models to
initialize larger models.
- Abstract(参考訳): トランスフォーマーのスケーリングは、多くのドメインにおいて大きなブレークスルーをもたらし、既存のモデルのより大きなバージョンを訓練し、定期的にリリースするパラダイムへとつながった。
このようなモデルの新たなインスタンスは、通常、スクラッチから完全にトレーニングされる。
既存のモデルのパラメータにおける暗黙の知識を使って、新しい大きなモデルのより高速なトレーニングを可能にするには、どうすればよいのか?
本稿では,事前学習されたトランスフォーマーの成長を学習し,より小さいモデルのパラメータを線形にマッピングし,より大きなモデルを初期化するトランスフォーマートレーニングの促進手法について述べる。
トラクタブル・ラーニングでは、線形変換を(線形)幅および深さ成長演算子の合成として分解し、さらにこれらの成長演算子のクロネッカー分解を用いてアーキテクチャ的知識をエンコードする。
言語および視覚トランスフォーマー間の大規模な実験により、学習した線形成長演算子(LiGO)は、スクラッチから最大50%の計算コストを削減できる一方で、より小さな事前学習モデルを再利用してより大規模なモデルを初期化する強力なベースラインを一貫して上回ります。
関連論文リスト
- Towards smaller, faster decoder-only transformers: Architectural variants and their implications [0.0]
本稿では,デコーダのみのトランスアーキテクチャであるParallelGPT,LinearGPT,ConvGPTの3つの改良点を紹介する。
これらのバリエーションは、言語生成における従来のアーキテクチャと同等のパフォーマンスを示すが、モデルのサイズを縮小し、より高速なトレーニングプロセスの恩恵を受ける。
論文 参考訳(メタデータ) (2024-04-22T06:19:46Z) - Weight subcloning: direct initialization of transformers using larger
pretrained ones [42.056148990349094]
本稿では,事前学習されたモデルの知識をより小さな変種に伝達する手法を提案する。
ウェイト・サブクロニングは、より大きな事前訓練モデルからウェイトを初期化することにより、スケールダウン・トランスフォーマーのトレーニングを高速化する。
我々は、次のトークン予測のために設計された画像分類と言語モデルにおいて、視覚変換器の4倍高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2023-12-14T19:08:56Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - On the Transformer Growth for Progressive BERT Training [37.57617077192438]
ネットワークアーキテクチャ検索と同様、Transformerの成長も複合スケーリングを好んでいる。
提案手法では, ベースモデルと大型モデルでそれぞれ73.6%, 82.2%の事前学習を高速化する。
論文 参考訳(メタデータ) (2020-10-23T17:44:59Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。