論文の概要: schuBERT: Optimizing Elements of BERT
- arxiv url: http://arxiv.org/abs/2005.06628v1
- Date: Sat, 9 May 2020 21:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 06:33:49.229069
- Title: schuBERT: Optimizing Elements of BERT
- Title(参考訳): schuBERT:BERTの要素を最適化する
- Authors: Ashish Khetan, Zohar Karnin
- Abstract要約: 我々は、より軽量なモデルを得るため、BERTのアーキテクチャ選択を再考する。
アルゴリズムによって選択された正しい設計次元を減らし,より効率的な光BERTモデルが得られることを示す。
特に、私たちのschuBERTは、3つのエンコーダ層を持つBERTと比較して、GLUEとSQuADデータセットの平均精度を6.6%以上提供しています。
- 参考スコア(独自算出の注目度): 22.463154358632472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers \citep{vaswani2017attention} have gradually become a key
component for many state-of-the-art natural language representation models. A
recent Transformer based model- BERT \citep{devlin2018bert} achieved
state-of-the-art results on various natural language processing tasks,
including GLUE, SQuAD v1.1, and SQuAD v2.0. This model however is
computationally prohibitive and has a huge number of parameters. In this work
we revisit the architecture choices of BERT in efforts to obtain a lighter
model. We focus on reducing the number of parameters yet our methods can be
applied towards other objectives such FLOPs or latency. We show that much
efficient light BERT models can be obtained by reducing algorithmically chosen
correct architecture design dimensions rather than reducing the number of
Transformer encoder layers. In particular, our schuBERT gives $6.6\%$ higher
average accuracy on GLUE and SQuAD datasets as compared to BERT with three
encoder layers while having the same number of parameters.
- Abstract(参考訳): 変換器 \citep{vaswani2017attention} は、徐々に多くの最先端自然言語表現モデルの主要な構成要素となっている。
最近の Transformer ベースのモデルである BERT \citep{devlin2018bert} は、GLUE、SQuAD v1.1、SQuAD v2.0 など、様々な自然言語処理タスクにおける最先端の結果を得た。
しかし、このモデルは計算が禁止され、多くのパラメータを持つ。
この作業では、より軽量なモデルを得るためにBERTのアーキテクチャ選択を再考する。
パラメータの数を減らすことに重点を置いていますが、フロップやレイテンシといった他の目的にも適用可能です。
本稿では,トランスフォーマーエンコーダ層数を削減するのではなく,アルゴリズムによって選択された正しい設計次元を削減し,極めて効率的な光BERTモデルが得られることを示す。
特に、我々のschuBERTはGLUEとSQuADデータセットの平均精度を6.6\%$、同じ数のパラメータを持ちながら3つのエンコーダ層を持つBERTと比較します。
関連論文リスト
- SparseGrad: A Selective Method for Efficient Fine-tuning of MLP Layers [88.68985153780514]
本稿では,パラメータブロックでよく動作する選択型PEFT法,すなわちSparseGradを提案する。
SparseGrad を NLU タスクに BERT と RoBERTa を,質問応答タスクに LLaMa-2 を適用した。
論文 参考訳(メタデータ) (2024-10-09T19:03:52Z) - Sensi-BERT: Towards Sensitivity Driven Fine-Tuning for
Parameter-Efficient BERT [6.029590006321152]
本稿では、下流タスクのための感度駆動効率の良いBERTモデルの微調整であるSensi-BERTを提案する。
実験の結果,MNLI,QQP,QNLI,SST-2,SQuADなどの下流タスクに対するSensi-BERTの有効性が示された。
論文 参考訳(メタデータ) (2023-07-14T17:24:15Z) - Block-wise Bit-Compression of Transformer-based Models [9.77519365079468]
再学習を伴わない変圧器のブロックワイドビット圧縮法であるBBCTを提案する。
GLUE(General Language Understanding Evaluation)のベンチマークテストの結果,ほとんどのタスクにおいて,BBCTは1%未満の精度低下を達成できることがわかった。
論文 参考訳(メタデータ) (2023-03-16T09:53:57Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - LightHuBERT: Lightweight and Configurable Speech Representation Learning
with Once-for-All Hidden-Unit BERT [69.77358429702873]
本稿では,一度限りのTransformer圧縮フレームワークであるLightHuBERTを提案する。
自動音声認識(ASR)とSUPERBベンチマークの実験は、提案されたLightHuBERTが109ドル以上のアーキテクチャを実現することを示している。
LightHuBERTは、ほとんどのタスクにおいて、29%のパラメータを削減して、教師モデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-29T14:20:55Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Deploying a BERT-based Query-Title Relevance Classifier in a Production
System: a View from the Trenches [3.1219977244201056]
変換器(BERT)モデルによる双方向表現は,多くの自然言語処理(NLP)タスクの性能を大幅に向上させてきた。
BERTを低レイテンシ、高スループットの産業用ユースケースにスケールすることは、その巨大なサイズのために困難である。
BERT Bidirectional Long Short-Term Memory (BertBiLSTM) という名前のコンパクトモデルによるデプロイメントのためのQTR分類器の最適化に成功した。
BertBiLSTMは、上記の実世界の生産作業における精度と効率の観点から、既成のBERTモデルの性能を上回る
論文 参考訳(メタデータ) (2021-08-23T14:28:23Z) - AutoTinyBERT: Automatic Hyper-parameter Optimization for Efficient
Pre-trained Language Models [46.69439585453071]
アーキテクチャのハイパーパラメータを自動的に検索するために,NAS(One-shot Neural Architecture Search)を採用している。
具体的には,小型PLMの適応的かつ効率的な開発方法を提供するために,ワンショット学習の技術と検索空間を設計する。
提案手法をAutoTinyBERTと命名し,GLUEおよびSQuADベンチマーク上での有効性を評価する。
論文 参考訳(メタデータ) (2021-07-29T00:47:30Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。