論文の概要: ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language
Understanding and Generation
- arxiv url: http://arxiv.org/abs/2107.02137v1
- Date: Mon, 5 Jul 2021 16:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 15:02:36.343957
- Title: ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language
Understanding and Generation
- Title(参考訳): ernie 3.0: 言語理解と生成のための大規模知識強化
- Authors: Yu Sun, Shuohuan Wang, Shikun Feng, Siyu Ding, Chao Pang, Junyuan
Shang, Jiaxiang Liu, Xuyi Chen, Yanbin Zhao, Yuxiang Lu, Weixin Liu, Zhihua
Wu, Weibao Gong, Jianzhong Liang, Zhizhou Shang, Peng Sun, Wei Liu, Xuan
Ouyang, Dianhai Yu, Hao Tian, Hua Wu, Haifeng Wang
- Abstract要約: 大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。
自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。
我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
- 参考スコア(独自算出の注目度): 25.430130072811075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained models have achieved state-of-the-art results in various Natural
Language Processing (NLP) tasks. Recent works such as T5 and GPT-3 have shown
that scaling up pre-trained language models can improve their generalization
abilities. Particularly, the GPT-3 model with 175 billion parameters shows its
strong task-agnostic zero-shot/few-shot learning capabilities. Despite their
success, these large-scale models are trained on plain texts without
introducing knowledge such as linguistic knowledge and world knowledge. In
addition, most large-scale models are trained in an auto-regressive way. As a
result, this kind of traditional fine-tuning approach demonstrates relatively
weak performance when solving downstream language understanding tasks. In order
to solve the above problems, we propose a unified framework named ERNIE 3.0 for
pre-training large-scale knowledge enhanced models. It fuses auto-regressive
network and auto-encoding network, so that the trained model can be easily
tailored for both natural language understanding and generation tasks with
zero-shot learning, few-shot learning or fine-tuning. We trained the model with
10 billion parameters on a 4TB corpus consisting of plain texts and a
large-scale knowledge graph. Empirical results show that the model outperforms
the state-of-the-art models on 54 Chinese NLP tasks, and its English version
achieves the first place on the SuperGLUE benchmark (July 3, 2021), surpassing
the human performance by +0.8% (90.6% vs. 89.8%).
- Abstract(参考訳): 事前訓練されたモデルは、様々な自然言語処理(NLP)タスクにおいて最先端の結果を得た。
T5やGPT-3といった最近の研究は、事前訓練された言語モデルのスケールアップが一般化能力を向上させることを示した。
特に、1750億のパラメータを持つGPT-3モデルは、タスクに依存しないゼロショット/フェーショット学習能力を示している。
その成功にもかかわらず、これらの大規模モデルは、言語知識や世界知識などの知識を導入することなく、プレーンテキストで訓練されている。
さらに、ほとんどの大規模モデルは自動回帰的な方法で訓練されている。
その結果、従来の微調整手法は、下流言語理解タスクを解く際に、比較的弱い性能を示す。
上記の問題を解決するため,大規模知識強化モデルの事前学習のための統合フレームワークERNIE 3.0を提案する。
自動回帰ネットワークと自動エンコードネットワークを融合することで、訓練されたモデルは、ゼロショット学習、少数ショット学習、微調整による自然言語理解と生成タスクの両方に容易にカスタマイズできる。
我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
実験の結果、このモデルは54の中国NLPタスクにおいて最先端のモデルよりも優れており、英語版はSuperGLUEベンチマーク(2021年7月3日)で初位を獲得し、人間のパフォーマンスを+0.8%(90.6%対89.8%)上回った。
関連論文リスト
- Emergent Abilities in Reduced-Scale Generative Language Models [10.51168925267033]
大規模言語モデルはタスク固有の微調整なしで新しいタスクを解くことができる。
この能力は創発的能力と見なされ、数十億のパラメータを持つ大きな言語モデルで主に見られる。
本研究では,そのような創発特性がモデルサイズと厳密に結びついているか,縮小スケールで訓練されたより小さなモデルで示すことができるかを検討する。
論文 参考訳(メタデータ) (2024-04-02T18:00:28Z) - Pretrained Generative Language Models as General Learning Frameworks for
Sequence-Based Tasks [0.0]
そこで本研究では,素小事前学習型生成言語モデルをシーケンスベースタスクの一般的な学習フレームワークとして利用することを提案する。
提案では,ニューラルネットワークと言語モデルをスクラッチからトレーニングする際の計算資源,スキルセット,タイムラインの課題を克服する。
125M,350M,1.3Bパラメータを事前学習した基礎言語モデルを1万から1000,000の命令例で微調整できることを実証した。
論文 参考訳(メタデータ) (2024-02-08T12:19:32Z) - Large Language Models Are Also Good Prototypical Commonsense Reasoners [11.108562540123387]
従来の微調整アプローチはリソース集約的であり、モデルの一般化能力を損なう可能性がある。
我々は、調整されたタスクのための大規模モデルの出力からインスピレーションを受け、半自動で新しいプロンプトのセットを開発した。
より優れた設計のプロンプトによって、ProtoQAのリーダーボードで新しい最先端(SOTA)を達成することができます。
論文 参考訳(メタデータ) (2023-09-22T20:07:24Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training
for Language Understanding and Generation [50.036392756981016]
GPT-3は、事前訓練された言語モデルをスケールアップすることで、その潜在能力をさらに活用できることを示した。
ERNIE 3.0という名前の統一フレームワークが、大規模な知識強化モデルの事前トレーニングのために提案された。
ERNIE 3.0は様々なNLPタスクにおいて最先端のモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-12-23T17:35:48Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。