論文の概要: Accelerating Training of Transformer-Based Language Models with
Progressive Layer Dropping
- arxiv url: http://arxiv.org/abs/2010.13369v1
- Date: Mon, 26 Oct 2020 06:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:31:39.844690
- Title: Accelerating Training of Transformer-Based Language Models with
Progressive Layer Dropping
- Title(参考訳): プログレッシブレイヤドロップによる変圧器型言語モデルの高速化
- Authors: Minjia Zhang and Yuxiong He
- Abstract要約: 提案手法は, サンプルあたり平均24%の時間短縮を実現し, プレトレーニングをベースラインの2.5倍の速度で行うことができる。
トレーニング済みのモデルでは,より高速ながら,強力な知識伝達能力を備え,ベースラインよりも高いGLUEスコアを達成できる。
- 参考スコア(独自算出の注目度): 24.547833264405355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Transformer-based language models have demonstrated remarkable
performance across many NLP domains. However, the unsupervised pre-training
step of these models suffers from unbearable overall computational expenses.
Current methods for accelerating the pre-training either rely on massive
parallelism with advanced hardware or are not applicable to language modeling.
In this work, we propose a method based on progressive layer dropping that
speeds the training of Transformer-based language models, not at the cost of
excessive hardware resources but from model architecture change and training
technique boosted efficiency. Extensive experiments on BERT show that the
proposed method achieves a 24% time reduction on average per sample and allows
the pre-training to be 2.5 times faster than the baseline to get a similar
accuracy on downstream tasks. While being faster, our pre-trained models are
equipped with strong knowledge transferability, achieving comparable and
sometimes higher GLUE score than the baseline when pre-trained with the same
number of samples.
- Abstract(参考訳): 近年,トランスフォーマーに基づく言語モデルは,多くのNLPドメインで顕著な性能を示した。
しかし、これらのモデルの教師なし事前学習段階は、全体的な計算コストに苦しむ。
事前学習を加速する現在の手法は、高度なハードウェアによる大規模並列性に依存するか、言語モデリングには適用できない。
本研究では,過大なハードウェアリソースのコストではなく,モデルのアーキテクチャ変更やトレーニング技術によって効率が向上するトランスフォーマーベースの言語モデルのトレーニングを高速化する,プログレッシブレイヤドロップに基づく手法を提案する。
BERTの大規模実験により,提案手法はサンプルあたり平均24%の時間短縮を実現し,ベースラインの2.5倍の事前学習を可能とし,下流タスクでも同様の精度を得ることができた。
事前学習したモデルでは, 高い知識伝達性を備えており, 同じサンプル数で事前学習した場合, ベースラインよりも高いGLUEスコアが得られる。
関連論文リスト
- DiJiang: Efficient Large Language Models through Compact Kernelization [30.24187657746638]
本稿では、事前学習したバニラ変換器を、トレーニングコストの少ない線形複雑化モデルに変換するための新しい周波数領域カーネル化手法を提案する。
実験により,提案手法は元のTransformerに匹敵する性能を示したが,トレーニングコストを大幅に削減し,推論速度を大幅に高速化した。
論文 参考訳(メタデータ) (2024-03-29T02:32:15Z) - Preparing Lessons for Progressive Training on Language Models [75.88952808979087]
人工知能におけるトランスフォーマーの急速な進歩は、資源消費の増加と温室効果ガス排出のコストを犠牲にしている。
我々は,低層学習におけるtextbflayer functitextbfonality による extextbfpanding textbfoperation の授業をプレptextbfars で行うApolloを提案する。
実験では、アポロは最先端の加速比を達成し、事前訓練されたモデルを用いた手法にさえ対抗できることを示した。
論文 参考訳(メタデータ) (2024-01-17T13:04:14Z) - Fast Propagation is Better: Accelerating Single-Step Adversarial
Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。
モデルの内部構造ブロックを利用して効率を向上させることを提案する。
従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文 参考訳(メタデータ) (2023-10-24T01:36:20Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Efficient Training of Neural Transducer for Speech Recognition [44.99337868233026]
スクラッチから高性能なニューラルトランスデューサモデルを構築するために,効率的な3段階プログレッシブトレーニングパイプラインを提案する。
提案されたパイプラインは,最先端のパフォーマンスに近づくトランスデューサモデルを,たった2~3週間で1つのGPUでトレーニングすることができる。
論文 参考訳(メタデータ) (2022-04-22T09:16:51Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - ScaLA: Accelerating Adaptation of Pre-Trained Transformer-Based Language
Models via Efficient Large-Batch Adversarial Noise [20.779167087445995]
事前訓練されたトランスフォーマーベースの言語モデルは、多くの自然言語理解タスクにおいて劇的に改善されている。
ScaLAは変圧器ネットワークの高速化のための,新規かつ効率的な手法である。
実験の結果、ScaLAはBERTベースのRoBERTa-large上でGLLAのベースライン上で2.7-UE-9.8$times$アダプティブ・スピードアップを達成した。
論文 参考訳(メタデータ) (2022-01-29T01:47:01Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Progressively Stacking 2.0: A Multi-stage Layerwise Training Method for
BERT Training Speedup [13.50984315473865]
BERTのトレーニング時間を短縮するために,効率的な多段階階層トレーニング(MSLT)手法を提案する。
提案されたトレーニング戦略では、上位層のみが後方計算に参加し、ほとんどの層は前方計算にのみ参加する。
実験結果から,提案手法は性能劣化を伴わずに110%以上のトレーニングスピードアップを達成できることが示唆された。
論文 参考訳(メタデータ) (2020-11-27T10:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。