論文の概要: ExtremeBERT: A Toolkit for Accelerating Pretraining of Customized BERT
- arxiv url: http://arxiv.org/abs/2211.17201v1
- Date: Wed, 30 Nov 2022 17:50:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:12:00.230896
- Title: ExtremeBERT: A Toolkit for Accelerating Pretraining of Customized BERT
- Title(参考訳): ExtremeBERT: カスタマイズしたBERTの事前トレーニングを加速するためのツールキット
- Authors: Rui Pan, Shizhe Diao, Jianlin Chen, Tong Zhang
- Abstract要約: ExtremeBERTは、BERT事前トレーニングを加速し、カスタマイズするためのツールキットである。
我々のゴールは、研究コミュニティと産業にとって使いやすいBERT事前学習ツールキットを提供することです。
- 参考スコア(独自算出の注目度): 14.000010513796294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present ExtremeBERT, a toolkit for accelerating and
customizing BERT pretraining. Our goal is to provide an easy-to-use BERT
pretraining toolkit for the research community and industry. Thus, the
pretraining of popular language models on customized datasets is affordable
with limited resources. Experiments show that, to achieve the same or better
GLUE scores, the time cost of our toolkit is over $6\times$ times less for BERT
Base and $9\times$ times less for BERT Large when compared with the original
BERT paper. The documentation and code are released at
https://github.com/extreme-bert/extreme-bert under the Apache-2.0 license.
- Abstract(参考訳): 本稿では,BERT事前学習の高速化とカスタマイズのためのツールキットExtremeBERTを提案する。
我々のゴールは、研究コミュニティと産業にとって使いやすいBERT事前学習ツールキットを提供することです。
したがって、カスタマイズされたデータセット上で人気のある言語モデルの事前トレーニングは、限られたリソースで安価である。
実験によると、同じ、あるいはより優れた結合スコアを達成するために、bertベースではツールキットの時間コストが$6\times$倍以下、bert largeでは$9\times$倍以下になる。
ドキュメントとコードはApache-2.0ライセンスの下でhttps://github.com/extreme-bert/extreme-bertで公開されている。
関連論文リスト
- MosaicBERT: A Bidirectional Encoder Optimized for Fast Pretraining [10.421048804389343]
本稿では,BERTスタイルのエンコーダアーキテクチャであるMosaicBERTを紹介する。
C4データセットのスクラッチから事前トレーニングされた場合、このベースモデルは、約20ドルで8 A100 80 GB GPU上で1.13時間の平均GLUEスコア79.6を達成する。
この事前トレーニングでの実証的なスピードアップにより、研究者やエンジニアは既存のジェネリックモデルの微調整ではなく、BERTスタイルのカスタムモデルを低コストで事前トレーニングすることができる。
論文 参考訳(メタデータ) (2023-12-29T06:05:19Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - NarrowBERT: Accelerating Masked Language Model Pretraining and Inference [50.59811343945605]
そこで我々はNarrowBERTを提案する。NarrowBERTは改良されたトランスフォーマーエンコーダで、マスク付き言語モデルのプリトレーニングのスループットを2ドル以上の値で向上させる。
NarrowBERTは、自己アテンションクエリとフィードフォワード層が事前トレーニング中に各文のマスク付きトークンでのみ動作するように、トランスフォーマーモデルをスペーサー化する。
NarrowBERTは、MNLIのような文符号化タスクにおいて、最小(またはノー)のパフォーマンス劣化を伴って、$3.5times$で推論時にスループットを向上することを示す。
論文 参考訳(メタデータ) (2023-01-11T23:45:50Z) - Finding the Winning Ticket of BERT for Binary Text Classification via
Adaptive Layer Truncation before Fine-tuning [7.797987384189306]
BERTをベースとしたモデルのサイズの異なるモデルを構築し、それらの予測を8つのバイナリ分類タスクで比較する。
結果は、完全なモデルよりもパフォーマンスが良い小さなサブネットワークが存在することを示している。
論文 参考訳(メタデータ) (2021-11-22T02:22:47Z) - How to Train BERT with an Academic Budget [19.219720216623394]
大規模な言語モデル a la BERT は、NLP で普遍的に使用されていますが、事前トレーニングは、少数のよく資金提供された業界ラボでしか利用できない高級品とみなされます。
低レンジの12GBGPUを8台のみ使用し,マスク付き言語モデルを24時間でプリトレーニングするレシピを提案する。
論文 参考訳(メタデータ) (2021-04-15T18:17:12Z) - Bertinho: Galician BERT Representations [14.341471404165349]
本稿ではガリシア語に対する単言語BERTモデルを提案する。
我々は、それぞれ6層と12層からなる2つのモデルをリリースする。
我々のモデル、特に12層モデルでは、ほとんどのタスクにおいてmBERTの結果よりも優れています。
論文 参考訳(メタデータ) (2021-03-25T12:51:34Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z) - DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference [69.93692147242284]
BERTのような大規模事前訓練型言語モデルは、NLPアプリケーションに大幅な改善をもたらした。
本稿では, BERT推論を高速化するために, 単純だが効果的な手法であるDeeBERTを提案する。
実験の結果、DeeBERTはモデル品質の低下を最小限に抑えながら、最大40%の推論時間を節約できることがわかった。
論文 参考訳(メタデータ) (2020-04-27T17:58:05Z) - DynaBERT: Dynamic BERT with Adaptive Width and Depth [55.18269622415814]
我々は新しい動的BERTモデル(DynaBERTと略される)を提案する。
適応的な幅と深さを選択することで、サイズとレイテンシを柔軟に調整できる。
既存のBERT圧縮手法よりずっと優れています。
論文 参考訳(メタデータ) (2020-04-08T15:06:28Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。