論文の概要: oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes
- arxiv url: http://arxiv.org/abs/2303.17612v3
- Date: Tue, 6 Jun 2023 16:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 20:15:51.443127
- Title: oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes
- Title(参考訳): oBERTa: 初期化, 蒸留, プルーニング体制の改善によるスパーストランスファー学習の改善
- Authors: Daniel Campos, Alexandre Marques, Mark Kurtz, and ChengXiang Zhai
- Abstract要約: oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
- 参考スコア(独自算出の注目度): 82.99830498937729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce the range of oBERTa language models, an
easy-to-use set of language models which allows Natural Language Processing
(NLP) practitioners to obtain between 3.8 and 24.3 times faster models without
expertise in model compression. Specifically, oBERTa extends existing work on
pruning, knowledge distillation, and quantization and leverages frozen
embeddings improves distillation and model initialization to deliver higher
accuracy on a broad range of transfer tasks. In generating oBERTa, we explore
how the highly optimized RoBERTa differs from the BERT for pruning during
pre-training and finetuning. We find it less amenable to compression during
fine-tuning. We explore the use of oBERTa on seven representative NLP tasks and
find that the improved compression techniques allow a pruned oBERTa model to
match the performance of BERTbase and exceed the performance of Prune OFA Large
on the SQUAD V1.1 Question Answering dataset, despite being 8x and 2x,
respectively faster in inference. We release our code, training regimes, and
associated model for broad usage to encourage usage and experimentation
- Abstract(参考訳): 本稿では,自然言語処理(NLP)の実践者が,モデル圧縮の専門知識のない3.8倍から24.3倍の高速なモデルを得ることができる,使い易い言語モデルであるoBERTa言語モデルについて紹介する。
具体的には、oBERTaはプルーニング、知識蒸留、量子化に関する既存の作業を拡張し、凍結埋め込みを活用して蒸留とモデル初期化を改善し、幅広い転送タスクにおいて高い精度を提供する。
oBERTaの生成において、高度に最適化されたRoBERTaと、事前学習や微調整を行う場合のPruningにおけるBERTの違いについて検討する。
微調整時に圧縮しにくくなる。
7つの代表的NLPタスクに対するoBERTaの使用について検討し、改良された圧縮手法により、それぞれ8倍と2倍の精度で、BERTbaseの性能に適合し、SQUAD V1.1質問回答データセット上でのPrune OFA Largeの性能を超えることが判明した。
使用と実験を促進するために、幅広い使用のためのコード、トレーニング体制、および関連するモデルをリリースします。
関連論文リスト
- Sensi-BERT: Towards Sensitivity Driven Fine-Tuning for
Parameter-Efficient BERT [6.029590006321152]
本稿では、下流タスクのための感度駆動効率の良いBERTモデルの微調整であるSensi-BERTを提案する。
実験の結果,MNLI,QQP,QNLI,SST-2,SQuADなどの下流タスクに対するSensi-BERTの有効性が示された。
論文 参考訳(メタデータ) (2023-07-14T17:24:15Z) - Sparse*BERT: Sparse Models Generalize To New tasks and Domains [79.42527716035879]
本稿では, 階層的非構造的マグニチュード・プルーニング(Gradual Unstructured Magnitude Pruning)を用いて, ドメイン間およびタスク間を移動可能なモデルについて検討する。
Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。
論文 参考訳(メタデータ) (2022-05-25T02:51:12Z) - The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning for
Large Language Models [23.12519490211362]
本稿では,BERTモデルの文脈における非構造重み打ちの精度圧縮トレードオフについて検討する。
近似2次情報に基づく効率的かつ正確な重量刈り法であるO-BERT-S(Optimal BERT Surgeon)を提案する。
本研究では,トランスフォーマーモデルに対する圧縮手法の複合化において,このプルーニング法が与える影響について検討する。
論文 参考訳(メタデータ) (2022-03-14T16:40:31Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - Prune Once for All: Sparse Pre-Trained Language Models [0.6063525456640462]
そこで本研究では,ウェイトプルーニングとモデル蒸留を統合したスパース事前訓練型トランスフォーマー言語モデルの学習手法を提案する。
これらのスパース事前学習モデルは、疎度パターンを維持しながら、幅広いタスクの学習を伝達するために使用することができる。
圧縮されたスパース事前学習モデルが、その知識を、最小限の精度で5つの下流自然言語タスクに伝達する方法を示す。
論文 参考訳(メタデータ) (2021-11-10T15:52:40Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - LadaBERT: Lightweight Adaptation of BERT through Hybrid Model
Compression [21.03685890385275]
BERTは、大きなコーパスによって事前訓練された最先端の言語表現モデルである。
BERTはメモリ集約的であり、ユーザ要求の満足のいくレイテンシにつながる。
本稿では,異なるモデル圧縮手法の利点を組み合わせたLadaBERTというハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2020-04-08T17:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。