論文の概要: CPM-2: Large-scale Cost-effective Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2106.10715v1
- Date: Sun, 20 Jun 2021 15:43:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:37:34.443259
- Title: CPM-2: Large-scale Cost-effective Pre-trained Language Models
- Title(参考訳): CPM-2:大規模費用対効果事前訓練言語モデル
- Authors: Zhengyan Zhang, Yuxian Gu, Xu Han, Shengqi Chen, Chaojun Xiao, Zhenbo
Sun, Yuan Yao, Fanchao Qi, Jian Guan, Pei Ke, Yanzheng Cai, Guoyang Zeng,
Zhixing Tan, Zhiyuan Liu, Minlie Huang, Wentao Han, Yang Liu, Xiaoyan Zhu,
Maosong Sun
- Abstract要約: 本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
- 参考スコア(独自算出の注目度): 71.59893315671997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the size of pre-trained language models (PLMs) has grown by
leaps and bounds. However, efficiency issues of these large-scale PLMs limit
their utilization in real-world scenarios. We present a suite of cost-effective
techniques for the use of PLMs to deal with the efficiency issues of
pre-training, fine-tuning, and inference. (1) We introduce knowledge
inheritance to accelerate the pre-training process by exploiting existing PLMs
instead of training models from scratch. (2) We explore the best practice of
prompt tuning with large-scale PLMs. Compared with conventional fine-tuning,
prompt tuning significantly reduces the number of task-specific parameters. (3)
We implement a new inference toolkit, namely InfMoE, for using large-scale PLMs
with limited computational resources. Based on our cost-effective pipeline, we
pre-train two models: an encoder-decoder bilingual model with 11 billion
parameters (CPM-2) and its corresponding MoE version with 198 billion
parameters. In our experiments, we compare CPM-2 with mT5 on downstream tasks.
Experimental results show that CPM-2 has excellent general language
intelligence. Moreover, we validate the efficiency of InfMoE when conducting
inference of large-scale models having tens of billions of parameters on a
single GPU. All source code and model parameters are available at
https://github.com/TsinghuaAI/CPM.
- Abstract(参考訳): 近年,事前学習型言語モデル (PLM) のサイズは跳躍と境界によって増大している。
しかし、これらの大規模PLMの効率問題は現実のシナリオでの利用を制限する。
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
1)スクラッチからトレーニングモデルに代えて既存のplmを活用し,事前学習プロセスを高速化するために知識継承を導入する。
2)大規模PLMを用いた即時チューニングのベストプラクティスを検討する。
従来の微調整に比べて、プロンプトチューニングはタスク固有のパラメータの数を大幅に減少させる。
(3)計算資源が限られている大規模PLMを使用するための新しい推論ツールキットInfMoEを実装した。
コスト効率のよいパイプラインに基づいて、100億のパラメータを持つエンコーダ・デコーダバイリンガルモデル(CPM-2)と、1980億のパラメータを持つMoEバージョンという2つのモデルを事前訓練する。
実験では,下流タスクにおけるCPM-2とmT5を比較した。
実験の結果, CPM-2は汎用言語知能に優れていた。
さらに,InfMoEを1つのGPU上で数千億のパラメータを持つ大規模モデルの推論を行う際の効率を検証する。
すべてのソースコードとモデルパラメータはhttps://github.com/TsinghuaAI/CPMで入手できる。
関連論文リスト
- Parameter-Efficient Fine-Tuning of Large Language Models for Unit Test Generation: An Empirical Study [3.5189934649278922]
GitHub Copilotのような大規模言語モデル(LLM)は、微調整なしで現実世界のタスクに苦労する。
本稿では,LoRA, (IA)3, およびプロンプトチューニングを含む各種PEFT法について検討する。
その結果,PEFT法は単体テスト生成のための完全微調整に匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-04T09:03:18Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - Optimizing Distributed Training on Frontier for Large Language Models [7.251642875697334]
数十億のパラメータで大規模言語モデル(LLM)を訓練することは、重大な課題となり、かなりの計算資源を必要とする。
本研究では、世界初のエクサスケールスーパーコンピュータであるFrontierからこの計算を抽出するための効率的な分散トレーニング戦略を探求する。
論文 参考訳(メタデータ) (2023-12-20T02:03:15Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Large Product Key Memory for Pretrained Language Models [12.932177565788974]
製品キーメモリ(PKM)は、計算オーバーヘッドの少ないモデル容量を効率的に増やし、予測精度を向上させる。
近年のPLM(Pretrained Language Model)の成功に触発されて,多種多様なNLPタスクに適する大規模なPKMをPLMに組み込む方法について検討した。
論文 参考訳(メタデータ) (2020-10-08T10:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。