論文の概要: CPM: A Large-scale Generative Chinese Pre-trained Language Model
- arxiv url: http://arxiv.org/abs/2012.00413v1
- Date: Tue, 1 Dec 2020 11:32:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 19:54:14.930464
- Title: CPM: A Large-scale Generative Chinese Pre-trained Language Model
- Title(参考訳): CPM: 大規模生成中国語事前訓練言語モデル
- Authors: Zhengyan Zhang, Xu Han, Hao Zhou, Pei Ke, Yuxian Gu, Deming Ye, Yujia
Qin, Yusheng Su, Haozhe Ji, Jian Guan, Fanchao Qi, Xiaozhi Wang, Yanan Zheng,
Guoyang Zeng, Huanqi Cao, Shengqi Chen, Daixuan Li, Zhenbo Sun, Zhiyuan Liu,
Minlie Huang, Wentao Han, Jie Tang, Juanzi Li, Xiaoyan Zhu, Maosong Sun
- Abstract要約: 我々は,大規模な中国語学習データに基づく生成事前学習を備えた中国語事前学習言語モデル(CPM)をリリースする。
CPMは、数ショット(ゼロショットでも)学習の設定において、多くのNLPタスクで強力なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 76.65305358932393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Language Models (PLMs) have proven to be beneficial for various
downstream NLP tasks. Recently, GPT-3, with 175 billion parameters and 570GB
training data, drew a lot of attention due to the capacity of few-shot (even
zero-shot) learning. However, applying GPT-3 to address Chinese NLP tasks is
still challenging, as the training corpus of GPT-3 is primarily English, and
the parameters are not publicly available. In this technical report, we release
the Chinese Pre-trained Language Model (CPM) with generative pre-training on
large-scale Chinese training data. To the best of our knowledge, CPM, with 2.6
billion parameters and 100GB Chinese training data, is the largest Chinese
pre-trained language model, which could facilitate several downstream Chinese
NLP tasks, such as conversation, essay generation, cloze test, and language
understanding. Extensive experiments demonstrate that CPM achieves strong
performance on many NLP tasks in the settings of few-shot (even zero-shot)
learning. The code and parameters are available at
https://github.com/TsinghuaAI/CPM-Generate.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、様々な下流のNLPタスクに有用であることが証明されている。
最近、GPT-3は1750億のパラメータと570GBのトレーニングデータを持ち、数ショット(ゼロショット)の学習能力のために多くの注目を集めている。
しかし、GPT-3のトレーニングコーパスは主に英語であり、パラメータは公開されていないため、中国のNLPタスクにGPT-3を適用することは依然として難しい。
本技術報告では,大規模な中国語学習データに基づく生成事前学習を伴う中国語事前学習言語モデル(CPM)をリリースする。
我々の知る限り、CPMは260億のパラメータと100GBの中国語のトレーニングデータを持ち、中国最大の事前訓練された言語モデルであり、会話、エッセイ生成、クローゼテスト、言語理解など、いくつかの中国語のNLPタスクを促進することができる。
大規模な実験により、CPMは、少数ショット(ゼロショット)学習の設定において、多くのNLPタスクで高いパフォーマンスを達成することが示された。
コードとパラメータはhttps://github.com/tsinghuaai/cpm-generateで入手できる。
関連論文リスト
- InstructionCP: A fast approach to transfer Large Language Models into target language [55.2480439325792]
InsCPは命令タグをCPプロセスに統合し、新しい言語を習得する際の会話能力の喪失を防ぐ。
実験の結果,InsCPは人間のフィードバック能力から会話と強化学習を維持していることがわかった。
このアプローチでは、高品質な命令追従データを0.1億トークンしか必要とせず、それによってリソース消費が減少する。
論文 参考訳(メタデータ) (2024-05-30T15:45:13Z) - Revisiting and Advancing Chinese Natural Language Understanding with
Accelerated Heterogeneous Knowledge Pre-training [25.510288465345592]
英語とは違って、自然言語処理(NLP)コミュニティでは、さまざまな言語理解アプリケーションをサポートするために、高性能なオープンソースの中国語KEPLMが欠如している。
そこで我々は,さまざまなパラメータサイズで公開された中国語KEPLMを用いて,中国語の自然言語理解の展開と発展について検討する。
具体的には、リレーショナル知識と言語知識の両方を、2つの新しい事前学習タスクに基づいてCKBERTに効果的に注入する。
論文 参考訳(メタデータ) (2022-10-11T09:34:21Z) - AdaPrompt: Adaptive Model Training for Prompt-based NLP [77.12071707955889]
PLMの継続事前学習のための外部データを適応的に検索するAdaPromptを提案する。
5つのNLPベンチマークの実験結果から、AdaPromptは数ショット設定で標準PLMよりも改善可能であることが示された。
ゼロショット設定では、標準のプロンプトベースの手法を26.35%の相対誤差削減で上回ります。
論文 参考訳(メタデータ) (2022-02-10T04:04:57Z) - Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and
Few-Shot Learning [18.932100477957462]
GPT-3のような最近の研究は、多くの自然言語処理(NLP)タスクにおけるZero-ShotとFew-Shot学習の優れた性能を示している。
本稿では,大規模分散トレーニング性能をモデルアーキテクチャ設計に組み込む手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T07:40:22Z) - FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark [8.158067688043554]
この研究は、中国初の総合的な小サンプル評価ベンチマークである中国語 Few-shot Learning Evaluation Benchmark (FewCLUE) を紹介した。
1つのタスクに最大2万のサンプルを追加するラベルなしのトレーニングが提供され、ラベルなしのサンプルを使用する方法を改善することができる。
次に、最先端の複数ショット学習手法を実装し、その性能をFewCLUEベンチマークの微調整およびゼロショット学習方式と比較する。
論文 参考訳(メタデータ) (2021-07-15T17:51:25Z) - ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language
Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。
自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。
我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文 参考訳(メタデータ) (2021-07-05T16:54:59Z) - PanGu-$\alpha$: Large-scale Autoregressive Pretrained Chinese Language
Models with Auto-parallel Computation [58.31465205357637]
PanGu-$alpha$という,最大200億パラメータの大規模オートレグレッシブ言語モデルをトレーニングするプラクティスを紹介します。
PanGu-$alpha$はMindSporeの下で開発され、2048 Ascend 910 AIプロセッサのクラスタでトレーニングされている。
論文 参考訳(メタデータ) (2021-04-26T06:59:36Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。