論文の概要: LV-BERT: Exploiting Layer Variety for BERT
- arxiv url: http://arxiv.org/abs/2106.11740v1
- Date: Tue, 22 Jun 2021 13:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 15:17:32.206306
- Title: LV-BERT: Exploiting Layer Variety for BERT
- Title(参考訳): LV-BERT:BERTの爆発層
- Authors: Weihao Yu, Zihang Jiang, Fei Chen, Qibin Hou and Jiashi Feng
- Abstract要約: 我々は,事前学習モデルに有益である層型集合に畳み込みを導入する。
次に、事前学習による進化的アルゴリズムを採用し、最適なアーキテクチャを求める。
提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れる。
- 参考スコア(独自算出の注目度): 85.27287501885807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern pre-trained language models are mostly built upon backbones stacking
self-attention and feed-forward layers in an interleaved order. In this paper,
beyond this stereotyped layer pattern, we aim to improve pre-trained models by
exploiting layer variety from two aspects: the layer type set and the layer
order. Specifically, besides the original self-attention and feed-forward
layers, we introduce convolution into the layer type set, which is
experimentally found beneficial to pre-trained models. Furthermore, beyond the
original interleaved order, we explore more layer orders to discover more
powerful architectures. However, the introduced layer variety leads to a large
architecture space of more than billions of candidates, while training a single
candidate model from scratch already requires huge computation cost, making it
not affordable to search such a space by directly training large amounts of
candidate models. To solve this problem, we first pre-train a supernet from
which the weights of all candidate models can be inherited, and then adopt an
evolutionary algorithm guided by pre-training accuracy to find the optimal
architecture. Extensive experiments show that LV-BERT model obtained by our
method outperforms BERT and its variants on various downstream tasks. For
example, LV-BERT-small achieves 78.8 on the GLUE testing set, 1.8 higher than
the strong baseline ELECTRA-small.
- Abstract(参考訳): 現代の事前学習言語モデルは、主に自己注意層とフィードフォワード層をインターリーブ順序で積み重ねたバックボーン上に構築されている。
本稿では,このステレオタイプ層パターン以外にも,レイヤタイプセットとレイヤオーダーという2つの側面から,レイヤの多様性を活用することで,事前学習モデルの改善を目指す。
具体的には, 初期自己付着層とフィードフォワード層に加えて, 事前学習モデルに有益であることが実験的に判明した層型集合に畳み込みを導入する。
さらに、もともとのインターリーブド・オーダーを超えて、より強力なアーキテクチャを見つけるために、より多くのレイヤオーダを探索する。
しかし、導入されたレイヤーの多様性は数十億以上の候補からなる大きなアーキテクチャ空間に繋がるが、単一の候補モデルをスクラッチからトレーニングするには膨大な計算コストが必要であり、大量の候補モデルを直接トレーニングすることで、そのような空間を検索するのは手頃ではない。
この問題を解決するために,まず,すべての候補モデルの重みを継承可能なスーパーネットを事前学習し,事前学習精度を導いた進化的アルゴリズムを適用して最適なアーキテクチャを求める。
実験の結果,提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れていた。
例えば、LV-BERT-smallはGLUEテストセットで78.8で、強いベースラインELECTRA-smallよりも1.8高い。
関連論文リスト
- Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification [7.005068872406135]
大規模事前学習ネットワークを活用した自動話者検証(ASV)研究の最近の進歩が達成されている。
ASVのための事前学習モデルの多層特性を利用するための新しい手法を提案する。
提案した層間処理が,事前学習モデルを利用する利点の最大化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-09-12T05:55:32Z) - Inheritune: Training Smaller Yet More Attentive Language Models [61.363259848264725]
Inherituneは、より小型で高性能な言語モデルを開発するための、シンプルで効果的なトレーニングレシピである。
Inheritune は OpenWebText-9B や FineWeb_edu のようなデータセット上で GPT-2 モデルのさまざまなサイズのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-12T17:53:34Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Improving Reliability of Fine-tuning with Block-wise Optimisation [6.83082949264991]
ファインタニングは知識を伝達することでドメイン固有のタスクに取り組むのに使うことができる。
本稿では,事前学習したモデルの層群を重み付けするブロックワイズ最適化機構を提案する。
提案されたアプローチは、頻繁に使用されるデータセットであるTf_flowerでテストされる。
論文 参考訳(メタデータ) (2023-01-15T16:20:18Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。
その結果,メモリフットプリントの精度が向上し,dを4~8倍削減できることがわかった。
論文 参考訳(メタデータ) (2020-06-10T02:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。