論文の概要: Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and
Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2110.04725v2
- Date: Tue, 12 Oct 2021 02:25:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 10:45:24.905348
- Title: Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and
Few-Shot Learning
- Title(参考訳): Yuan 1.0: ゼロショット学習における大規模事前学習型言語モデル
- Authors: Shaohua Wu, Xudong Zhao, Tong Yu, Rongguo Zhang, Chong Shen, Hongli
Liu, Feng Li, Hong Zhu, Jiangang Luo, Liang Xu, Xuanwei Zhang
- Abstract要約: GPT-3のような最近の研究は、多くの自然言語処理(NLP)タスクにおけるZero-ShotとFew-Shot学習の優れた性能を示している。
本稿では,大規模分散トレーニング性能をモデルアーキテクチャ設計に組み込む手法を提案する。
- 参考スコア(独自算出の注目度): 18.932100477957462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work like GPT-3 has demonstrated excellent performance of Zero-Shot
and Few-Shot learning on many natural language processing (NLP) tasks by
scaling up model size, dataset size and the amount of computation. However,
training a model like GPT-3 requires huge amount of computational resources
which makes it challengeable to researchers. In this work, we propose a method
that incorporates large-scale distributed training performance into model
architecture design. With this method, Yuan 1.0, the current largest singleton
language model with 245B parameters, achieves excellent performance on
thousands GPUs during training, and the state-of-the-art results on NLP tasks.
A data processing method is designed to efficiently filter massive amount of
raw data. The current largest high-quality Chinese corpus with 5TB high quality
texts is built based on this method. In addition, a calibration and label
expansion method is proposed to improve the Zero-Shot and Few-Shot performance,
and steady improvement is observed on the accuracy of various tasks. Yuan 1.0
presents strong capacity of natural language generation, and the generated
articles are difficult to distinguish from the human-written ones.
- Abstract(参考訳): GPT-3のような最近の研究は、モデルサイズ、データセットサイズ、計算量をスケールアップすることで、多くの自然言語処理(NLP)タスクにおけるゼロショットとフューショット学習の優れたパフォーマンスを示した。
しかし、GPT-3のようなモデルのトレーニングには膨大な量の計算資源が必要であり、研究者にとって困難である。
本研究では,大規模分散トレーニング性能をモデルアーキテクチャ設計に組み込む手法を提案する。
この方法では、245Bパラメータを持つ現在の最大のシングルトン言語モデルであるYuan 1.0は、トレーニング中に数千のGPU上で優れたパフォーマンスを実現し、NLPタスクにおける最先端の結果を得る。
大量の原データを効率よくフィルタリングするデータ処理方法が設計されている。
5tbの高品質テキストを持つ現在最大の中国製コーパスは、この方法に基づいて構築されている。
また,Zero-ShotおよびFew-Shotの性能向上のためにキャリブレーション・ラベル展開法を提案し,各種タスクの精度を安定的に改善した。
yuan 1.0は自然言語生成の能力が高く、生成した記事は人間が書いたものと区別が難しい。
関連論文リスト
- Benchmarking Pre-trained Large Language Models' Potential Across Urdu NLP tasks [0.9786690381850356]
多言語データで事前訓練されたLarge Language Models (LLMs)は、自然言語処理の研究に革命をもたらした。
本研究では,15のUrduデータセットを用いて,14のタスクにまたがる顕著なLLMの詳細な検討を行った。
実験の結果、SOTAモデルはゼロショット学習を伴う全てのUrdu NLPタスクにおいて、エンコーダ-デコーダ事前訓練された言語モデルを上回ることがわかった。
論文 参考訳(メタデータ) (2024-05-24T11:30:37Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Smaller Language Models are capable of selecting Instruction-Tuning
Training Data for Larger Language Models [39.65879784788677]
サンプルの学習率に基づいて,新しい学習データ選択を導入する。
現在の言語モデルには、高品質なトレーニングデータを自律的に選択する能力がある、と我々は主張する。
本稿では,データ選択のトレーニングに新たなアプローチを導入し,より効率的な代替手段を示す。
論文 参考訳(メタデータ) (2024-02-16T03:39:37Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Training Large Language Models Efficiently with Sparsity and Dataflow [3.1780195670658378]
本稿では,大言語モデル(130億GPT)における疎度とデータフローを用いたエンドツーエンドのトレーニングフローを示す。
我々は,GPT 13Bを高密度のGPT 13Bモデルと同じ品質でトレーニングできる一方で,高密度のA100ベースライン上でのエンドツーエンドの高速化を4.5倍に達成できることを示す。
論文 参考訳(メタデータ) (2023-04-11T21:37:13Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language
Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。
自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。
我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文 参考訳(メタデータ) (2021-07-05T16:54:59Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。