論文の概要: AutoBERT-Zero: Evolving BERT Backbone from Scratch
- arxiv url: http://arxiv.org/abs/2107.07445v1
- Date: Thu, 15 Jul 2021 16:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 14:11:41.944538
- Title: AutoBERT-Zero: Evolving BERT Backbone from Scratch
- Title(参考訳): AutoBERT-Zero: ScratchからBERTバックボーンを進化させる
- Authors: Jiahui Gao, Hang Xu, Han shi, Xiaozhe Ren, Philip L.H. Yu, Xiaodan
Liang, Xin Jiang, Zhenguo Li
- Abstract要約: そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 94.89102524181986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based pre-trained language models like BERT and its variants have
recently achieved promising performance in various natural language processing
(NLP) tasks. However, the conventional paradigm constructs the backbone by
purely stacking the manually designed global self-attention layers, introducing
inductive bias and thus leading to sub-optimal. In this work, we propose an
Operation-Priority Neural Architecture Search (OP-NAS) algorithm to
automatically search for promising hybrid backbone architectures. Our
well-designed search space (i) contains primitive math operations in the
intra-layer level to explore novel attention structures, and (ii) leverages
convolution blocks to be the supplementary for attention structure in the
inter-layer level to better learn local dependency. We optimize both the search
algorithm and evaluation of candidate models to boost the efficiency of our
proposed OP-NAS. Specifically, we propose Operation-Priority (OP) evolution
strategy to facilitate model search via balancing exploration and exploitation.
Furthermore, we design a Bi-branch Weight-Sharing (BIWS) training strategy for
fast model evaluation. Extensive experiments show that the searched
architecture (named AutoBERT-Zero) significantly outperforms BERT and its
variants of different model capacities in various downstream tasks, proving the
architecture's transfer and generalization abilities. Remarkably,
AutoBERT-Zero-base outperforms RoBERTa-base (using much more data) and
BERT-large (with much larger model size) by 2.4 and 1.4 higher score on GLUE
test set. Code and pre-trained models will be made publicly available.
- Abstract(参考訳): BERTのようなトランスフォーマーベースの事前学習型言語モデルとその変種は、最近、様々な自然言語処理(NLP)タスクで有望なパフォーマンスを達成した。
しかし、従来のパラダイムは、手動で設計したグローバルな自己注意層を純粋に積み重ねることでバックボーンを構築し、誘導バイアスを導入し、その結果、サブ最適となる。
そこで本研究では,将来性のあるハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
十分に設計された探索空間(i)は,新しい注意構造を探索するために層内レベルの原始的な数学演算を含み,(ii)畳み込みブロックを層間レベルでの注意構造の補足として活用し,局所依存性をよりよく学習する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
具体的には,オペレーショナル・プライオリティ(OP)進化戦略を提案し,探索とエクスプロイトのバランスをとることによってモデル探索を容易にする。
さらに,高速モデル評価のためのbi-branch Weight-Sharing (BIWS) トレーニング戦略を設計する。
大規模な実験により、探索されたアーキテクチャ(AutoBERT-Zero)は、さまざまな下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回り、アーキテクチャの転送と一般化能力を証明することが示されている。
注目すべきは、AutoBERT-Zero-base は RoBERTa-base と BERT-large を 2.4 と 1.4 で上回っていることだ。
コードと事前訓練されたモデルは公開されます。
関連論文リスト
- Structural Pruning of Pre-trained Language Models via Neural Architecture Search [7.833790713816726]
事前学習された言語モデル(PLM)は、ラベル付きデータに基づいて微調整された自然言語理解タスクの最先端である。
本稿では, 最適トレードオフ効率を有する微調整ネットワークのサブ部分を見つけるために, 構造解析のためのニューラルアーキテクチャ探索(NAS)について検討する。
論文 参考訳(メタデータ) (2024-05-03T17:34:57Z) - Improving Differentiable Architecture Search with a Generative Model [10.618008515822483]
我々は、生成モデルを用いた微分可能なアーキテクチャ探索(DASGM)と呼ばれるトレーニング戦略を導入する。
DASGMでは、トレーニングセットを使用して分類モデルの重みを更新し、合成データセットを使用してアーキテクチャをトレーニングする。
生成された画像はトレーニングセットと異なる分布を持ち、分類モデルがその弱点を識別するためにより良い特徴を学ぶのに役立つ。
論文 参考訳(メタデータ) (2021-11-30T23:28:02Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - AutoTinyBERT: Automatic Hyper-parameter Optimization for Efficient
Pre-trained Language Models [46.69439585453071]
アーキテクチャのハイパーパラメータを自動的に検索するために,NAS(One-shot Neural Architecture Search)を採用している。
具体的には,小型PLMの適応的かつ効率的な開発方法を提供するために,ワンショット学習の技術と検索空間を設計する。
提案手法をAutoTinyBERTと命名し,GLUEおよびSQuADベンチマーク上での有効性を評価する。
論文 参考訳(メタデータ) (2021-07-29T00:47:30Z) - LV-BERT: Exploiting Layer Variety for BERT [85.27287501885807]
我々は,事前学習モデルに有益である層型集合に畳み込みを導入する。
次に、事前学習による進化的アルゴリズムを採用し、最適なアーキテクチャを求める。
提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れる。
論文 参考訳(メタデータ) (2021-06-22T13:20:14Z) - AutoRC: Improving BERT Based Relation Classification Models via
Architecture Search [50.349407334562045]
BERTに基づく関係分類(RC)モデルは、従来のディープラーニングモデルよりも大幅に改善されている。
最適なアーキテクチャとは何かという合意は得られない。
BERTをベースとしたRCモデルのための包括的検索空間を設計し、設計選択を自動的に検出するためにNAS(Neural Architecture Search)手法を用いる。
論文 参考訳(メタデータ) (2020-09-22T16:55:49Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。