論文の概要: GPT-NeoX-20B: An Open-Source Autoregressive Language Model
- arxiv url: http://arxiv.org/abs/2204.06745v1
- Date: Thu, 14 Apr 2022 04:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-16 00:39:43.050137
- Title: GPT-NeoX-20B: An Open-Source Autoregressive Language Model
- Title(参考訳): GPT-NeoX-20B: オープンソースの自己回帰型言語モデル
- Authors: Sid Black and Stella Biderman and Eric Hallahan and Quentin Anthony
and Leo Gao and Laurence Golding and Horace He and Connor Leahy and Kyle
McDonell and Jason Phang and Michael Pieler and USVSN Sai Prashanth and
Shivanshu Purohit and Laria Reynolds and Jonathan Tow and Ben Wang and Samuel
Weinbach
- Abstract要約: GPT-NeoX-20Bは、Pileで訓練された200億のパラメータの自動回帰言語モデルである。
ウェイトは寛容なライセンスで、自由に公開することができる。
- 参考スコア(独自算出の注目度): 16.27825182552061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce GPT-NeoX-20B, a 20 billion parameter autoregressive language
model trained on the Pile, whose weights will be made freely and openly
available to the public through a permissive license. It is, to the best of our
knowledge, the largest dense autoregressive model that has publicly available
weights at the time of submission. In this work, we describe \model{}'s
architecture and training and evaluate its performance on a range of
language-understanding, mathematics, and knowledge-based tasks. We find that
GPT-NeoX-20B is a particularly powerful few-shot reasoner and gains far more in
performance when evaluated five-shot than similarly sized GPT-3 and FairSeq
models. We open-source the training and evaluation code, as well as the model
weights, at https://github.com/EleutherAI/gpt-neox.
- Abstract(参考訳): GPT-NeoX-20Bは、パイルで訓練された200億のパラメータの自動回帰言語モデルであり、その重み付けはパーミッシブライセンスを通じて、無料で公開される。
私たちの知る限りでは、提出時点で一般に利用可能な重量を持つ最大の密集自己回帰モデルである。
本稿では, 言語理解, 数学, 知識に基づくタスクにおいて, モデル{}のアーキテクチャとトレーニングを記述し, その性能を評価する。
GPT-NeoX-20Bは特に強力で、同様のサイズのGPT-3やFairSeqモデルよりも5ショットの評価で性能が向上している。
トレーニングと評価のコードとモデルの重み付けはhttps://github.com/EleutherAI/gpt-neox.orgで公開しています。
関連論文リスト
- BgGPT 1.0: Extending English-centric LLMs to other languages [12.867025651644692]
本稿では,BgGPT-Gemma-2-27B-InstructとBgGPT-Gemma-2-9B-Instructについて述べる。
我々のモデルはブルガリア語のタスクにおいて強力なパフォーマンスを示し、言語固有のAIモデルの新しい標準を設定します。
論文 参考訳(メタデータ) (2024-12-14T16:49:52Z) - ChuXin: 1.6B Technical Report [7.03872473285061]
ChuXinは16億のパラメータを持つ完全にオープンソースな言語モデルである。
トレーニングデータ、トレーニングプロセス、評価コードなど、モデルをトレーニングするために必要なものはすべて用意しました。
論文 参考訳(メタデータ) (2024-05-08T05:54:44Z) - SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。
ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。
オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文 参考訳(メタデータ) (2023-08-25T14:56:21Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - GLM-130B: An Open Bilingual Pre-trained Model [56.694470924635624]
我々は,130億のパラメータを持つバイリンガル(英語と中国語)事前学習言語モデルであるGLM-130Bを紹介する。
100Bスケールのモデルを少なくとも GPT-3 (davinci) と同程度にオープンソース化し、そのようなスケールのモデルがどのように事前訓練されるかを明らかにする試みである。
論文 参考訳(メタデータ) (2022-10-05T17:34:44Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language
Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。
自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。
我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文 参考訳(メタデータ) (2021-07-05T16:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。