論文の概要: LV-BERT: Exploiting Layer Variety for BERT
- arxiv url: http://arxiv.org/abs/2106.11740v1
- Date: Tue, 22 Jun 2021 13:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 15:17:32.206306
- Title: LV-BERT: Exploiting Layer Variety for BERT
- Title(参考訳): LV-BERT:BERTの爆発層
- Authors: Weihao Yu, Zihang Jiang, Fei Chen, Qibin Hou and Jiashi Feng
- Abstract要約: 我々は,事前学習モデルに有益である層型集合に畳み込みを導入する。
次に、事前学習による進化的アルゴリズムを採用し、最適なアーキテクチャを求める。
提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れる。
- 参考スコア(独自算出の注目度): 85.27287501885807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern pre-trained language models are mostly built upon backbones stacking
self-attention and feed-forward layers in an interleaved order. In this paper,
beyond this stereotyped layer pattern, we aim to improve pre-trained models by
exploiting layer variety from two aspects: the layer type set and the layer
order. Specifically, besides the original self-attention and feed-forward
layers, we introduce convolution into the layer type set, which is
experimentally found beneficial to pre-trained models. Furthermore, beyond the
original interleaved order, we explore more layer orders to discover more
powerful architectures. However, the introduced layer variety leads to a large
architecture space of more than billions of candidates, while training a single
candidate model from scratch already requires huge computation cost, making it
not affordable to search such a space by directly training large amounts of
candidate models. To solve this problem, we first pre-train a supernet from
which the weights of all candidate models can be inherited, and then adopt an
evolutionary algorithm guided by pre-training accuracy to find the optimal
architecture. Extensive experiments show that LV-BERT model obtained by our
method outperforms BERT and its variants on various downstream tasks. For
example, LV-BERT-small achieves 78.8 on the GLUE testing set, 1.8 higher than
the strong baseline ELECTRA-small.
- Abstract(参考訳): 現代の事前学習言語モデルは、主に自己注意層とフィードフォワード層をインターリーブ順序で積み重ねたバックボーン上に構築されている。
本稿では,このステレオタイプ層パターン以外にも,レイヤタイプセットとレイヤオーダーという2つの側面から,レイヤの多様性を活用することで,事前学習モデルの改善を目指す。
具体的には, 初期自己付着層とフィードフォワード層に加えて, 事前学習モデルに有益であることが実験的に判明した層型集合に畳み込みを導入する。
さらに、もともとのインターリーブド・オーダーを超えて、より強力なアーキテクチャを見つけるために、より多くのレイヤオーダを探索する。
しかし、導入されたレイヤーの多様性は数十億以上の候補からなる大きなアーキテクチャ空間に繋がるが、単一の候補モデルをスクラッチからトレーニングするには膨大な計算コストが必要であり、大量の候補モデルを直接トレーニングすることで、そのような空間を検索するのは手頃ではない。
この問題を解決するために,まず,すべての候補モデルの重みを継承可能なスーパーネットを事前学習し,事前学習精度を導いた進化的アルゴリズムを適用して最適なアーキテクチャを求める。
実験の結果,提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れていた。
例えば、LV-BERT-smallはGLUEテストセットで78.8で、強いベースラインELECTRA-smallよりも1.8高い。
関連論文リスト
- StochCA: A Novel Approach for Exploiting Pretrained Models with
Cross-Attention [2.992602379681373]
トランスフォーマーアーキテクチャに特有なクロスアテンション(StochCA)と呼ばれる新しい微調整手法を提案する。
この方法はトランスフォーマーの自己保持機構を変更し、微調整中に事前学習したモデルからの知識を選択的に活用する。
両領域の最先端アプローチに対するStochCAの優位性について検討した。
論文 参考訳(メタデータ) (2024-02-25T13:53:49Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured
Pruning [57.12877119005303]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Enhancing Cross-Category Learning in Recommendation Systems with
Multi-Layer Embedding Training [2.4862527485819186]
多層埋め込み訓練(MLET)は、埋め込み層の因子化による埋め込みを訓練する。
MLETは、特に稀なアイテムに対して、一貫してより良いモデルを生成する。
モデル品質が一定であれば、MLETは埋め込み寸法とモデルサイズを最大16倍、平均5.8倍まで減らすことができる。
論文 参考訳(メタデータ) (2023-09-27T09:32:10Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Improving Reliability of Fine-tuning with Block-wise Optimisation [6.83082949264991]
ファインタニングは知識を伝達することでドメイン固有のタスクに取り組むのに使うことができる。
本稿では,事前学習したモデルの層群を重み付けするブロックワイズ最適化機構を提案する。
提案されたアプローチは、頻繁に使用されるデータセットであるTf_flowerでテストされる。
論文 参考訳(メタデータ) (2023-01-15T16:20:18Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。
その結果,メモリフットプリントの精度が向上し,dを4~8倍削減できることがわかった。
論文 参考訳(メタデータ) (2020-06-10T02:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。