論文の概要: FPM: A Collection of Large-scale Foundation Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2111.04909v1
- Date: Tue, 9 Nov 2021 02:17:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 22:41:25.596926
- Title: FPM: A Collection of Large-scale Foundation Pre-trained Language Models
- Title(参考訳): FPM: 大規模ファンデーション事前訓練言語モデルのコレクション
- Authors: Dezhou Shen
- Abstract要約: 私たちは現在の効果的なモデル構造を使用して、現在の最も主流な技術を通じてモデルセットをローンチします。
将来的にはこれが基本モデルになると思います。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work in language modeling has shown that training large-scale
Transformer models has promoted the latest developments in natural language
processing applications. However, there is very little work to unify the
current effective models. In this work, we use the current effective model
structure to launch a model set through the current most mainstream technology.
We think this will become the basic model in the future. For Chinese, using the
GPT-2[9] model, a 10.3 billion parameter language model was trained on the
Chinese dataset, and, in particular, a 2.9 billion parameter language model
based on dialogue data was trained; the BERT model was trained on the Chinese
dataset with 495 million parameters; the Transformer model has trained a
language model with 5.6 billion parameters on the Chinese dataset. In English,
corresponding training work has also been done. Using the GPT-2 model, a
language model with 6.4 billion parameters was trained on the English dataset;
the BERT[3] model trained a language model with 1.24 billion parameters on the
English dataset, and in particular, it trained a 688 million parameter based on
single card training technology Language model; Transformer model trained a
language model with 5.6 billion parameters on the English dataset. In the TNEWS
classification task evaluated by CLUE[13], the BERT-C model exceeded the 59.46%
accuracy of ALBERT-xxlarge with an accuracy rate of 59.99%, an increase of
0.53%. In the QQP classification task evaluated by GLUE[11], the accuracy rate
of 78.95% surpassed the accuracy rate of BERT-Large of 72.1%, an increase of
6.85%. Compared with the current accuracy rate of ERNIE, the first place in the
GLUE evaluation of 75.2%, an increase of 3.75%.
- Abstract(参考訳): 言語モデリングにおける最近の研究は、大規模なトランスフォーマーモデルのトレーニングが、自然言語処理アプリケーションの最新の開発を促進することを示している。
しかし、現在の効果的なモデルを統一する作業はほとんどない。
本研究では,現行の有効なモデル構造を用いて,現在の主流技術を通じたモデルセットをローンチする。
将来的にはこれが基本モデルになると思います。
中国語では、GPT-2[9]モデルを使用して、103億のパラメータ言語モデルを中国語データセットでトレーニングし、特に対話データに基づく29億のパラメータ言語モデルを訓練し、BERTモデルは中国語データセットで495万のパラメータでトレーニングし、Transformerモデルは中国語データセットで56億のパラメータを持つ言語モデルを訓練した。
英語では、対応する訓練も行われている。
gpt-2モデルを使用して、英語データセット上で640億のパラメータを持つ言語モデルをトレーニングし、bert[3]モデルは英語データセット上で124億のパラメータを持つ言語モデルをトレーニングし、特にシングルカードトレーニング技術に基づく6億8800万のパラメータをトレーニングした。
CLUE[13]により評価されたTNEWS分類タスクにおいて,BERT-CモデルはALBERT-xxlargeの59.46%の精度,59.99%の精度,0.53%の精度を示した。
glue[11]によって評価されたqqp分類タスクでは、78.95%の精度が72.1%のbert-largeの精度を上回り、6.85%の増加となった。
ERNIEの現在の精度と比較すると、GLUEの75.2%の評価では3.75%上昇した。
関連論文リスト
- DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Investigating Pre-trained Language Models on Cross-Domain Datasets, a
Step Closer to General AI [0.8889304968879164]
本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。
私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
論文 参考訳(メタデータ) (2023-06-21T11:55:17Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - Training Compute-Optimal Large Language Models [54.00424650998489]
私たちは、500億から500億のトークンに対して、7000万から160億以上のパラメータの言語モデルをトレーニングしています。
計算最適トレーニングでは、モデルのサイズとトレーニングトークンの数が等しくスケールする必要がある。
チンチラはGopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)を均一かつ著しく上回る
論文 参考訳(メタデータ) (2022-03-29T13:38:03Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Zero-Shot Cross-Lingual Transfer in Legal Domain Using Transformer
models [0.0]
マルチラベルテキスト分類において,英語からフランス語,ドイツ語へのゼロショット・クロスランガル変換について検討した。
我々は、法律文書のトピック分類のための英語データセットであるEURLEX57Kデータセットを拡張し、フランス語とドイツ語の公式翻訳を行った。
多言語事前訓練モデル(M-DistilBERT, M-BERT)の言語モデル微調整により, フランス語とドイツ語の相対的改善が32.0-34.94%, 76.15-87.54%となることがわかった。
論文 参考訳(メタデータ) (2021-11-28T16:25:04Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language
Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。
自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。
我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文 参考訳(メタデータ) (2021-07-05T16:54:59Z) - Scaling End-to-End Models for Large-Scale Multilingual ASR [44.89961662796597]
多くの言語ファミリーでASRモデルを構築することは、大きな言語バリエーションと非常にバランスの取れないデータのために、マルチタスク学習の難しい問題です。
言語毎のデータ量は7.7Kから54.7K時間まで様々である。
論文 参考訳(メタデータ) (2021-04-30T08:24:11Z) - Transferring Monolingual Model to Low-Resource Language: The Case of
Tigrinya [0.0]
本稿では,強力なソース言語モデルを採用するためのコスト効率のよいトランスファー学習手法を提案する。
与えられたTigrinya感情分析データセットの10k例だけで、英語のXLNetは78.88%のF1スコアを達成した。
CLSデータセット上の微調整(英: Fine-tuning)XLNetモデルでは,mBERTと比較して有望な結果が得られる。
論文 参考訳(メタデータ) (2020-06-13T18:53:22Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。