論文の概要: How to Train BERT with an Academic Budget
- arxiv url: http://arxiv.org/abs/2104.07705v1
- Date: Thu, 15 Apr 2021 18:17:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:40:35.822230
- Title: How to Train BERT with an Academic Budget
- Title(参考訳): 学費予算でBERTを訓練する方法
- Authors: Peter Izsak, Moshe Berchansky, Omer Levy
- Abstract要約: 大規模な言語モデル a la BERT は、NLP で普遍的に使用されていますが、事前トレーニングは、少数のよく資金提供された業界ラボでしか利用できない高級品とみなされます。
低レンジの12GBGPUを8台のみ使用し,マスク付き言語モデルを24時間でプリトレーニングするレシピを提案する。
- 参考スコア(独自算出の注目度): 19.219720216623394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models \`a la BERT are used ubiquitously in NLP,
pretraining them is considered a luxury that only a few well-funded industry
labs can afford. How can one train such models with a more modest budget? We
present a recipe for pretraining a masked language model in 24 hours, using
only 8 low-range 12GB GPUs. We demonstrate that through a combination of
software optimizations, design choices, and hyperparameter tuning, it is
possible to produce models that are competitive with BERT-base on GLUE tasks at
a fraction of the original pretraining cost.
- Abstract(参考訳): 大規模な言語モデル \`a la BERT は NLP でユビキタスに使われているが、事前訓練は、資金の潤沢な産業実験室にしか手に入らない高級品だと考えられている。
そんなモデルをもっと控えめな予算でどうやって訓練できるのか?
マスキング言語モデルの事前トレーニングを24時間で行うためのレシピを,低レンジ12gbのgpuを8台使用して紹介する。
ソフトウェア最適化,設計選択,ハイパーパラメータチューニングの組み合わせによって,初期トレーニングコストのごく一部で,グルータスク上でbertベースと競合するモデルを生成することが可能であることを実証した。
関連論文リスト
- LoQT: Low-Rank Adapters for Quantized Pretraining [5.767156832161818]
Low-Rank Adapters for Quantized Training (LoQT) は、量子化モデルの効率的なトレーニング方法である。
我々のアプローチは、事前学習モデルと微調整モデルの両方に適しています。
言語モデリングとダウンストリームタスク適応において,LoQTが最大7Bパラメータを24GBのGPU上で効率的にトレーニングできることを実証する。
論文 参考訳(メタデータ) (2024-05-26T11:29:57Z) - MosaicBERT: A Bidirectional Encoder Optimized for Fast Pretraining [10.421048804389343]
本稿では,BERTスタイルのエンコーダアーキテクチャであるMosaicBERTを紹介する。
C4データセットのスクラッチから事前トレーニングされた場合、このベースモデルは、約20ドルで8 A100 80 GB GPU上で1.13時間の平均GLUEスコア79.6を達成する。
この事前トレーニングでの実証的なスピードアップにより、研究者やエンジニアは既存のジェネリックモデルの微調整ではなく、BERTスタイルのカスタムモデルを低コストで事前トレーニングすることができる。
論文 参考訳(メタデータ) (2023-12-29T06:05:19Z) - Reducing Barriers to Self-Supervised Learning: HuBERT Pre-training with
Academic Compute [40.6786244647298]
自己教師付き学習(SSL)は、音声処理において大きな進歩をもたらした。
しかし、これらのモデルをトレーニングするために必要なリソースは、違法に大きくなる。
本研究では,HuBERT SSLを学術的制約に適合するように最適化する。
論文 参考訳(メタデータ) (2023-06-11T12:53:46Z) - NarrowBERT: Accelerating Masked Language Model Pretraining and Inference [50.59811343945605]
そこで我々はNarrowBERTを提案する。NarrowBERTは改良されたトランスフォーマーエンコーダで、マスク付き言語モデルのプリトレーニングのスループットを2ドル以上の値で向上させる。
NarrowBERTは、自己アテンションクエリとフィードフォワード層が事前トレーニング中に各文のマスク付きトークンでのみ動作するように、トランスフォーマーモデルをスペーサー化する。
NarrowBERTは、MNLIのような文符号化タスクにおいて、最小(またはノー)のパフォーマンス劣化を伴って、$3.5times$で推論時にスループットを向上することを示す。
論文 参考訳(メタデータ) (2023-01-11T23:45:50Z) - Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z) - Recipes for Adapting Pre-trained Monolingual and Multilingual Models to
Machine Translation [50.0258495437314]
機械翻訳(MT)における事前学習モデルの微調整において、凍結パラメータの利点と欠点と新しいパラメータの追加について検討する。
BARTでは、モデルパラメータの大部分を凍結し、追加の位置埋め込みを追加することで、最高のパフォーマンスを得ることができます。
mBARTでは、ほとんどの言語ペアがエンコーダで、ほとんどのデコーダはフリーズして、素早い微調整のパフォーマンスにマッチするか、向上します。
論文 参考訳(メタデータ) (2020-04-30T16:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。