論文の概要: FoundationLayerNorm: Scaling BERT and GPT to 1,000 Layers
- arxiv url: http://arxiv.org/abs/2204.04477v1
- Date: Sat, 9 Apr 2022 14:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 02:51:28.034711
- Title: FoundationLayerNorm: Scaling BERT and GPT to 1,000 Layers
- Title(参考訳): FoundationLayerNorm:BERTとGPTを1,000層にスケーリング
- Authors: Dezhou Shen
- Abstract要約: 本稿では,BERT と GPT のトレーニングを安定化するための簡易かつ効果的な手法を提案する。
我々はBERTとGPTを1000層にスケールアップすることに成功し、これは以前のBERTとGPTよりも桁違いに深い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The mainstream BERT/GPT model contains only 10 to 20 layers, and there is
little literature to discuss the training of deep BERT/GPT. This paper proposes
a simple yet effective method to stabilize BERT and GPT training. We
successfully scale up BERT and GPT to 1,000 layers, which is an order of
magnitude deeper than previous BERT and GPT. The proposed method
FoundationLayerNormalization enables efficient training of deep neural networks
and is validated at the 1000-layer scale.
- Abstract(参考訳): 主流のBERT/GPTモデルは10層から20層しか含んでおらず、深部BERT/GPTのトレーニングについて議論する文献はほとんどない。
本稿では,BERT と GPT のトレーニングを安定化するための簡易かつ効果的な手法を提案する。
我々はBERTとGPTを1000層にスケールアップすることに成功し、これは以前のBERTとGPTよりも桁違いに深い。
提案手法であるfoundationlayer normalizationは,ディープニューラルネットワークの効率的なトレーニングを可能にし,1000層規模で検証する。
関連論文リスト
- DPBERT: Efficient Inference for BERT based on Dynamic Planning [11.680840266488884]
既存の入力適応推論手法ではBERTの構造を十分に活用できない。
本稿では,BERTの推論過程を高速化する新しい微調整戦略であるBERTにおける動的計画法を提案する。
提案手法は,98%の精度を維持しながら遅延を75%まで低減し,最先端の入力適応方式に比べて高精度なトレードオフを実現する。
論文 参考訳(メタデータ) (2023-07-26T07:18:50Z) - Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask
Training [55.43088293183165]
近年の研究では、BERTのような事前学習言語モデル(PLM)には、元のPLMと同じような変換学習性能を持つマッチングワークが含まれていることが示されている。
本稿では, BERTworksがこれらの研究で示された以上の可能性を秘めていることを示す。
我々は、サブネットワークの普遍的な転送可能性を維持することを目的として、事前学習タスクのモデル重みよりも二項マスクを訓練する。
論文 参考訳(メタデータ) (2022-04-24T08:42:47Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - Finding the Winning Ticket of BERT for Binary Text Classification via
Adaptive Layer Truncation before Fine-tuning [7.797987384189306]
BERTをベースとしたモデルのサイズの異なるモデルを構築し、それらの予測を8つのバイナリ分類タスクで比較する。
結果は、完全なモデルよりもパフォーマンスが良い小さなサブネットワークが存在することを示している。
論文 参考訳(メタデータ) (2021-11-22T02:22:47Z) - Layer-wise Guided Training for BERT: Learning Incrementally Refined
Document Representations [11.46458298316499]
本研究では, 細管BERTの構造化手法を提案する。
具体的には、大規模マルチラベルテキスト分類(LMTC)に焦点を当てる。
我々のアプローチは、特定の階層レベルからラベルを予測するために、特定のBERT層をガイドする。
論文 参考訳(メタデータ) (2020-10-12T14:56:22Z) - Go Wide, Then Narrow: Efficient Training of Deep Thin Networks [62.26044348366186]
本稿では,深層ネットワークを理論的保証で訓練する効率的な手法を提案する。
我々の方法でのトレーニングにより、ResNet50はResNet101を上回り、BERT BaseはBERT Largeに匹敵する。
論文 参考訳(メタデータ) (2020-07-01T23:34:35Z) - DynaBERT: Dynamic BERT with Adaptive Width and Depth [55.18269622415814]
我々は新しい動的BERTモデル(DynaBERTと略される)を提案する。
適応的な幅と深さを選択することで、サイズとレイテンシを柔軟に調整できる。
既存のBERT圧縮手法よりずっと優れています。
論文 参考訳(メタデータ) (2020-04-08T15:06:28Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z) - BERT's output layer recognizes all hidden layers? Some Intriguing
Phenomena and a simple way to boost BERT [53.63288887672302]
変換器による双方向表現(BERT)は多くの自然言語処理(NLP)タスクで大きな成功を収めている。
その結果,BERTの各層を直接入力として取り込むことで,BERTの出力層が入力文を再構築できることが判明した。
本稿では,BERTの性能向上のための非常に単純な手法を提案する。
論文 参考訳(メタデータ) (2020-01-25T13:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。