論文の概要: On the Transformer Growth for Progressive BERT Training
- arxiv url: http://arxiv.org/abs/2010.12562v3
- Date: Sun, 11 Jul 2021 06:42:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 21:41:14.926242
- Title: On the Transformer Growth for Progressive BERT Training
- Title(参考訳): 進行性BERTトレーニングにおける変圧器成長について
- Authors: Xiaotao Gu, Liyuan Liu, Hongkun Yu, Jing Li, Chen Chen, Jiawei Han
- Abstract要約: ネットワークアーキテクチャ検索と同様、Transformerの成長も複合スケーリングを好んでいる。
提案手法では, ベースモデルと大型モデルでそれぞれ73.6%, 82.2%の事前学習を高速化する。
- 参考スコア(独自算出の注目度): 37.57617077192438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the excessive cost of large-scale language model pre-training,
considerable efforts have been made to train BERT progressively -- start from
an inferior but low-cost model and gradually grow the model to increase the
computational complexity. Our objective is to advance the understanding of
Transformer growth and discover principles that guide progressive training.
First, we find that similar to network architecture search, Transformer growth
also favors compound scaling. Specifically, while existing methods only conduct
network growth in a single dimension, we observe that it is beneficial to use
compound growth operators and balance multiple dimensions (e.g., depth, width,
and input length of the model). Moreover, we explore alternative growth
operators in each dimension via controlled comparison to give operator
selection practical guidance. In light of our analyses, the proposed method
speeds up BERT pre-training by 73.6% and 82.2% for the base and large models
respectively, while achieving comparable performances
- Abstract(参考訳): 大規模言語モデルの事前トレーニングに過度なコストがかかるため、BERTを徐々にトレーニングする努力が続けられている。
我々の目標は、トランスフォーマーの成長の理解を深め、進歩的トレーニングを導く原則を発見することである。
まず、ネットワークアーキテクチャ検索と同様に、トランスフォーマーの成長も複合スケーリングを好むことが分かりました。
具体的には、既存の手法は1次元でのみネットワーク成長を行うが、複合成長演算子を用いて複数の次元(例えば、モデルの深さ、幅、入力長)のバランスをとることは有用である。
さらに,各次元の代替成長演算子を制御比較により探索し,演算子選択の実践的ガイダンスを与える。
解析結果から,提案手法は,ベースモデルと大規模モデルでそれぞれ73.6%, 82.2%の事前学習を高速化し, 比較性能を実現した。
関連論文リスト
- Symmetric Dot-Product Attention for Efficient Training of BERT Language Models [5.838117137253223]
本稿では,Transformer アーキテクチャによって導入された自己注意機構の代替互換性関数を提案する。
BERTライクなモデルの事前トレーニングに適用すると、この新しい対称アテンション機構はGLUEベンチマークで79.36点に達し、従来の実装では78.74点だった。
論文 参考訳(メタデータ) (2024-06-10T15:24:15Z) - A Multi-Level Framework for Accelerating Training Transformer Models [5.268960238774481]
大規模ディープラーニングモデルの訓練は、コンピューティングパワーに対する前例のない需要をもたらしている。
本稿では,Coalescing, De-Coalescing, Interpolation に基づく,加速度のトレーニングのためのマルチレベルフレームワークを提案する。
提案手法は,BERT/GPT-Baseモデルのトレーニングにおいて約20%,BERT-Largeモデルのトレーニングにおいて最大51.6%のコスト削減を実現する。
論文 参考訳(メタデータ) (2024-04-07T03:04:34Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive
Language-Image Pre-training [78.63699436330165]
クロスモーダルな事前トレーニングは、幅広い下流タスクで顕著なパフォーマンスを示している。
オンラインデータは絶えず成長しており、継続的に成長しているデータから学習する事前訓練されたモデルの重要性を強調している。
我々は,連続した画像とテキストのペアを入力として,コントラスト言語画像の事前学習のための,データ駆動型自動モデル生成アルゴリズムであるGrowCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-22T10:07:49Z) - Masked Structural Growth for 2x Faster Language Model Pre-training [18.276784451675603]
我々は、小さなトランスフォーマー構造から大きな構造へと徐々に成長することで、事前学習のスピードアップに重点を置いている。
成長スケジュールの観点では、個々の次元がスケジュールの効率に与える影響は、既存の作業によって過小評価される。
本稿では, (i) 可能なすべての次元を含む成長スケジュールと, (ii) 厳密な機能保存型成長演算子を含む, マスケッド構造成長(MSG)を提案する。
論文 参考訳(メタデータ) (2023-05-04T14:28:39Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Staged Training for Transformer Language Models [47.99321376123886]
私たちは、小さなモデルから始まり、トレーニングに使用する計算量を漸進的に増加させる、段階的なトレーニング設定を考えます。
トレーニングプロセスは、各ステージを前のステージの出力で初期化することにより、計算を効果的に再利用する。
成長オペレーターを実証的に検証し、自己回帰言語モデルのトレーニングを行い、最大22%の計算貯蓄量を示した。
論文 参考訳(メタデータ) (2022-03-11T19:05:42Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。