論文の概要: BERT Busters: Outlier LayerNorm Dimensions that Disrupt BERT
- arxiv url: http://arxiv.org/abs/2105.06990v1
- Date: Fri, 14 May 2021 17:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 13:14:31.905716
- Title: BERT Busters: Outlier LayerNorm Dimensions that Disrupt BERT
- Title(参考訳): BERTバスターズ:BERTをディスラプトする外層ノーム次元
- Authors: Olga Kovaleva, Saurabh Kulshreshtha, Anna Rogers and Anna Rumshisky
- Abstract要約: Transformerエンコーダは、非常に少数のスケーリング要因とバイアスを取り除くことで、驚くほど脆弱であることを示す。
この結果から, 層正規化は, 想定よりはるかに重要な役割を担っていることが示唆された。
- 参考スコア(独自算出の注目度): 13.772774560775634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple studies have shown that BERT is remarkably robust to pruning, yet
few if any of its components retain high importance across downstream tasks.
Contrary to this received wisdom, we demonstrate that pre-trained Transformer
encoders are surprisingly fragile to the removal of a very small number of
scaling factors and biases in the output layer normalization (<0.0001% of model
weights). These are high-magnitude normalization parameters that emerge early
in pre-training and show up consistently in the same dimensional position
throughout the model. They are present in all six models of BERT family that we
examined and removing them significantly degrades both the MLM perplexity and
the downstream task performance. Our results suggest that layer normalization
plays a much more important role than usually assumed.
- Abstract(参考訳): 複数の研究によると、BERTはプルーニングに対して極めて堅牢であるが、下流のタスク全体においてそのコンポーネントが高い重要性を維持している場合はほとんどない。
学習前のTransformerエンコーダは,この知恵とは対照的に,出力層正規化における非常に少数のスケーリング係数とバイアス(モデル重みの0.0001%)の除去により,驚くほど脆弱であることを示す。
これらは、事前訓練の初期に出現し、モデル全体で同じ次元の位置に一貫して現れる高次正規化パラメータである。
bertファミリーの6つのモデルすべてに存在し、mlmのパープレキシティと下流のタスクパフォーマンスを著しく低下させ、取り除いた。
以上の結果から,通常よりも層正規化が重要な役割を担っていることが示唆された。
関連論文リスト
- The Emergence of Essential Sparsity in Large Pre-trained Models: The
Weights that Matter [113.35761858962522]
本稿では,複数の大きな事前学習された視覚と言語変換器のスパースパターンを誘導する。
本稿では,性能がはるかに速く低下する急激な落差点で定義される本質的疎度の存在を提案する。
また、N:Mのスパーシティパターンと近代的な大規模言語モデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-06T15:49:09Z) - Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文 参考訳(メタデータ) (2022-09-27T12:05:59Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z) - TrimBERT: Tailoring BERT for Trade-offs [6.068076825261616]
BERT-Baseにおける中間層数の削減は,下流タスクの微調整精度の低下を最小限に抑えることを示す。
さらに、自己アテンション層における全てのソフトマックス操作を、計算的にシンプルな代替品に置き換えることで、2つの重要なボトルネックを緩和する。
論文 参考訳(メタデータ) (2022-02-24T23:06:29Z) - Of Non-Linearity and Commutativity in BERT [8.295319152986316]
BERTの層間相互作用について検討し,層間構造が何らかの階層構造を示す一方で,ファジィな方法で特徴を抽出することを示した。
その結果、BERTは層可換性に対する誘導バイアスを持っていることが示唆され、これは主にスキップ接続によるものである。
論文 参考訳(メタデータ) (2021-01-12T15:29:38Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - IsoBN: Fine-Tuning BERT with Isotropic Batch Normalization [41.267328947683936]
微調整事前学習言語モデル(PTLM)は、自然言語理解(NLU)タスクのパフォーマンス向上のための一般的なプラクティスである。
最近の表現学習の進歩は、等方的埋め込みは、より高速な収束とより優れた一般化で下流タスクの性能を著しく向上させることができることを示している。
PTLMにおける事前学習した埋め込みの等方性は, 可視化により解析し, 標準偏差の高分散と, 寸法間の高相関の2つの主要な問題点を指摘した。
論文 参考訳(メタデータ) (2020-05-02T11:49:09Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - BERT's output layer recognizes all hidden layers? Some Intriguing
Phenomena and a simple way to boost BERT [53.63288887672302]
変換器による双方向表現(BERT)は多くの自然言語処理(NLP)タスクで大きな成功を収めている。
その結果,BERTの各層を直接入力として取り込むことで,BERTの出力層が入力文を再構築できることが判明した。
本稿では,BERTの性能向上のための非常に単純な手法を提案する。
論文 参考訳(メタデータ) (2020-01-25T13:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。