論文の概要: Multi-CLS BERT: An Efficient Alternative to Traditional Ensembling
- arxiv url: http://arxiv.org/abs/2210.05043v2
- Date: Sat, 20 May 2023 21:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 05:36:42.875526
- Title: Multi-CLS BERT: An Efficient Alternative to Traditional Ensembling
- Title(参考訳): Multi-CLS BERT: 従来の組立のオルタナティブな代替品
- Authors: Haw-Shiuan Chang, Ruei-Yao Sun, Kathryn Ricci, Andrew McCallum
- Abstract要約: BERTモデルの組み立ては精度を大幅に向上させるが、計算とメモリフットプリントのコストがかかる。
CLSに基づく予測タスクのための新しいアンサンブル手法であるMulti-BERTを提案する。
GLUEとSuperGLUEの実験では、Multi-BERTは全体的な精度と信頼性の両方を確実に改善することを示した。
- 参考スコア(独自算出の注目度): 34.88128747535637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensembling BERT models often significantly improves accuracy, but at the cost
of significantly more computation and memory footprint. In this work, we
propose Multi-CLS BERT, a novel ensembling method for CLS-based prediction
tasks that is almost as efficient as a single BERT model. Multi-CLS BERT uses
multiple CLS tokens with a parameterization and objective that encourages their
diversity. Thus instead of fine-tuning each BERT model in an ensemble (and
running them all at test time), we need only fine-tune our single Multi-CLS
BERT model (and run the one model at test time, ensembling just the multiple
final CLS embeddings). To test its effectiveness, we build Multi-CLS BERT on
top of a state-of-the-art pretraining method for BERT (Aroca-Ouellette and
Rudzicz, 2020). In experiments on GLUE and SuperGLUE we show that our Multi-CLS
BERT reliably improves both overall accuracy and confidence estimation. When
only 100 training samples are available in GLUE, the Multi-CLS BERT_Base model
can even outperform the corresponding BERT_Large model. We analyze the behavior
of our Multi-CLS BERT, showing that it has many of the same characteristics and
behavior as a typical BERT 5-way ensemble, but with nearly 4-times less
computation and memory.
- Abstract(参考訳): BERTモデルを組み込むことで精度が大幅に向上するが、計算量やメモリフットプリントが大幅に向上する。
本研究では,1つのBERTモデルとほぼ同等の効率で,CLSに基づく予測タスクの新たなアンサンブル手法であるMulti-CLS BERTを提案する。
Multi-CLS BERTはパラメータ化と目的を持つ複数のCLSトークンを使用し、多様性を促進する。
したがって、各BERTモデルをアンサンブルで微調整する(そして、すべてテスト時に実行する)代わりに、単一のMulti-CLS BERTモデルのみを微調整する(そして、テスト時に1つのモデルを実行し、複数の最終CLS埋め込みをアンサンブルする)。
提案手法の有効性を検証するため, BERT (Aroca-Ouellette and Rudzicz, 2020) の最先端事前訓練法上に Multi-CLS BERT を構築した。
GLUEとSuperGLUEの実験では、Multi-CLS BERTは全体的な精度と信頼性の両方を確実に改善することを示した。
GLUEで100のトレーニングサンプルしか入手できない場合、Multi-CLS BERT_Baseモデルは対応するBERT_Largeモデルよりも優れている。
我々は,Multi-CLS BERTの動作を分析し,通常のBERT 5-wayアンサンブルと同じ特性と動作を多く持つが,計算量とメモリ量が4倍近く少ないことを示す。
関連論文リスト
- Breaking the Token Barrier: Chunking and Convolution for Efficient Long
Text Classification with BERT [0.0]
変換器ベースのモデル、特にBERTは様々なNLPタスクの研究を推進している。
BERTモデルは512トークンの最大トークン制限に制限されているため、長い入力で実際に適用するのは簡単ではない。
本稿では,任意の事前学習したモデルを任意に長文で推論できるような,比較的単純なBanilla BERTアーキテクチャであるChunkBERTを提案する。
論文 参考訳(メタデータ) (2023-10-31T15:41:08Z) - Pretraining Without Attention [114.99187017618408]
本研究では、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、注意を払わずに事前学習を探索する。
BiGS は GLUE 上で BERT の事前トレーニング精度と一致し、近似なしで 4096 トークンの長期事前トレーニングに拡張できる。
論文 参考訳(メタデータ) (2022-12-20T18:50:08Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Finding the Winning Ticket of BERT for Binary Text Classification via
Adaptive Layer Truncation before Fine-tuning [7.797987384189306]
BERTをベースとしたモデルのサイズの異なるモデルを構築し、それらの予測を8つのバイナリ分類タスクで比較する。
結果は、完全なモデルよりもパフォーマンスが良い小さなサブネットワークが存在することを示している。
論文 参考訳(メタデータ) (2021-11-22T02:22:47Z) - Deploying a BERT-based Query-Title Relevance Classifier in a Production
System: a View from the Trenches [3.1219977244201056]
変換器(BERT)モデルによる双方向表現は,多くの自然言語処理(NLP)タスクの性能を大幅に向上させてきた。
BERTを低レイテンシ、高スループットの産業用ユースケースにスケールすることは、その巨大なサイズのために困難である。
BERT Bidirectional Long Short-Term Memory (BertBiLSTM) という名前のコンパクトモデルによるデプロイメントのためのQTR分類器の最適化に成功した。
BertBiLSTMは、上記の実世界の生産作業における精度と効率の観点から、既成のBERTモデルの性能を上回る
論文 参考訳(メタデータ) (2021-08-23T14:28:23Z) - Bertinho: Galician BERT Representations [14.341471404165349]
本稿ではガリシア語に対する単言語BERTモデルを提案する。
我々は、それぞれ6層と12層からなる2つのモデルをリリースする。
我々のモデル、特に12層モデルでは、ほとんどのタスクにおいてmBERTの結果よりも優れています。
論文 参考訳(メタデータ) (2021-03-25T12:51:34Z) - BoostingBERT:Integrating Multi-Class Boosting into BERT for NLP Tasks [0.5893124686141781]
本稿では,BERTにマルチクラスブースティングを統合する新しいBoosting BERTモデルを提案する。
提案したモデルについて,GLUEデータセットと3つの中国NLUベンチマークを用いて評価した。
論文 参考訳(メタデータ) (2020-09-13T09:07:14Z) - ConvBERT: Improving BERT with Span-based Dynamic Convolution [144.25748617961082]
BERTはグローバルな自己保持ブロックに大きく依存しているため、大きなメモリフットプリントと計算コストに悩まされる。
そこで本研究では,これらの自己注意型ヘッドを置き換え,局所的依存関係を直接モデル化する,スパンベースの動的畳み込みを提案する。
新たな畳み込み頭は、他の自己注意頭と共に、グローバルな文脈学習とローカルな文脈学習の両方においてより効率的である、新しい混合注意ブロックを形成する。
論文 参考訳(メタデータ) (2020-08-06T07:43:19Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。