論文の概要: bert2BERT: Towards Reusable Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2110.07143v1
- Date: Thu, 14 Oct 2021 04:05:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 05:39:57.355271
- Title: bert2BERT: Towards Reusable Pretrained Language Models
- Title(参考訳): bert2BERT: 再利用可能な事前トレーニング言語モデルを目指して
- Authors: Cheng Chen, Yichun Yin, Lifeng Shang, Xin Jiang, Yujia Qin, Fengyu
Wang, Zhi Wang, Xiao Chen, Zhiyuan Liu, Qun Liu
- Abstract要約: 本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
- 参考スコア(独自算出の注目度): 51.078081486422896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, researchers tend to pre-train ever-larger language models to
explore the upper limit of deep models. However, large language model
pre-training costs intensive computational resources and most of the models are
trained from scratch without reusing the existing pre-trained models, which is
wasteful. In this paper, we propose bert2BERT, which can effectively transfer
the knowledge of an existing smaller pre-trained model (e.g., BERT_BASE) to a
large model (e.g., BERT_LARGE) through parameter initialization and
significantly improve the pre-training efficiency of the large model.
Specifically, we extend the previous function-preserving on Transformer-based
language model, and further improve it by proposing advanced knowledge for
large model's initialization. In addition, a two-stage pre-training method is
proposed to further accelerate the training process. We did extensive
experiments on representative PLMs (e.g., BERT and GPT) and demonstrate that
(1) our method can save a significant amount of training cost compared with
baselines including learning from scratch, StackBERT and MSLT; (2) our method
is generic and applicable to different types of pre-trained models. In
particular, bert2BERT saves about 45% and 47% computational cost of
pre-training BERT_BASE and GPT_BASE by reusing the models of almost their half
sizes. The source code will be publicly available upon publication.
- Abstract(参考訳): 近年、研究者はより広い言語モデルを事前訓練し、深層モデルの上限を探索する傾向にある。
しかし、大規模言語モデル事前学習のコストは計算資源の集約化に費やされ、ほとんどのモデルは既存の事前学習モデルを再利用せずにゼロから訓練される。
本稿では,既存の小さな事前学習モデル(例えばBERT_BASE)の知識をパラメータ初期化により大規模モデル(例えばBERT_LARGE)に効果的に移行し,大規模モデルの事前学習効率を大幅に向上させるbert2BERTを提案する。
具体的には,トランスフォーマーに基づく言語モデル上での関数保存を拡張し,大規模モデルの初期化に関する高度な知識を提案することにより,さらに改良する。
さらに,2段階事前訓練法を提案し,トレーニングプロセスをさらに加速させた。
我々は代表的なplm(例えばbertとgpt)について広範な実験を行い、(1)本手法はスクラッチ、スタックバート、msltからの学習を含むベースラインと比較してかなりのトレーニングコストを削減できることを実証した。
特に、bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
ソースコードは公開時には公開される予定だ。
関連論文リスト
- Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization [22.90653167145603]
本稿では,事前学習した言語モデルのパラメータを,隠れ次元が増大する大規模モデルのパラメータに拡張する手法であるHyperCloningを紹介する。
結果として、より大きなモデルは、トレーニングを開始する前に、より小さなモデルの予測能力と精度をすでに継承している。
論文 参考訳(メタデータ) (2024-09-19T16:50:26Z) - Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models [29.367678364485794]
本稿では,言語モデルの事前学習を継続する上で,効率的なデータ分布と学習率スケジュールを設計する方法を示す。
プレトレーニングセットにおける継続トレーニングのベースラインと比較すると,平均モデル精度は9%向上した。
論文 参考訳(メタデータ) (2024-07-09T22:37:59Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - "Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow [5.036273913335737]
SOBertBase、109Mパラメータを持つSOBertBaseと、762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ$187$と$800$の予算でトレーニングします。
その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文 参考訳(メタデータ) (2023-06-05T21:38:30Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Bridging Pre-trained Models and Downstream Tasks for Source Code
Understanding [13.65914588243695]
本稿では,事前学習されたモデルとコード関連タスクをブリッジする手法を提案する。
我々は、下流データの多様性を豊かにする意味保存変換を利用する。
本稿では,既存の事前学習モデルを微調整するために,変換されたデータを手軽に整理するためのカリキュラム学習を紹介する。
論文 参考訳(メタデータ) (2021-12-04T07:21:28Z) - Transfer training from smaller language model [6.982133308738434]
小型の訓練済みモデルを大規模モデルに変更することで、トレーニング時間とリソースコストを節約する方法を見つけます。
ターゲットモデルを複数のデータセットでテストし、ソースモデルといまだに同等であることを示す。
論文 参考訳(メタデータ) (2021-04-23T02:56:02Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。