論文の概要: GPT-NeoX-20B: An Open-Source Autoregressive Language Model
- arxiv url: http://arxiv.org/abs/2204.06745v1
- Date: Thu, 14 Apr 2022 04:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-16 00:39:43.050137
- Title: GPT-NeoX-20B: An Open-Source Autoregressive Language Model
- Title(参考訳): GPT-NeoX-20B: オープンソースの自己回帰型言語モデル
- Authors: Sid Black and Stella Biderman and Eric Hallahan and Quentin Anthony
and Leo Gao and Laurence Golding and Horace He and Connor Leahy and Kyle
McDonell and Jason Phang and Michael Pieler and USVSN Sai Prashanth and
Shivanshu Purohit and Laria Reynolds and Jonathan Tow and Ben Wang and Samuel
Weinbach
- Abstract要約: GPT-NeoX-20Bは、Pileで訓練された200億のパラメータの自動回帰言語モデルである。
ウェイトは寛容なライセンスで、自由に公開することができる。
- 参考スコア(独自算出の注目度): 16.27825182552061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce GPT-NeoX-20B, a 20 billion parameter autoregressive language
model trained on the Pile, whose weights will be made freely and openly
available to the public through a permissive license. It is, to the best of our
knowledge, the largest dense autoregressive model that has publicly available
weights at the time of submission. In this work, we describe \model{}'s
architecture and training and evaluate its performance on a range of
language-understanding, mathematics, and knowledge-based tasks. We find that
GPT-NeoX-20B is a particularly powerful few-shot reasoner and gains far more in
performance when evaluated five-shot than similarly sized GPT-3 and FairSeq
models. We open-source the training and evaluation code, as well as the model
weights, at https://github.com/EleutherAI/gpt-neox.
- Abstract(参考訳): GPT-NeoX-20Bは、パイルで訓練された200億のパラメータの自動回帰言語モデルであり、その重み付けはパーミッシブライセンスを通じて、無料で公開される。
私たちの知る限りでは、提出時点で一般に利用可能な重量を持つ最大の密集自己回帰モデルである。
本稿では, 言語理解, 数学, 知識に基づくタスクにおいて, モデル{}のアーキテクチャとトレーニングを記述し, その性能を評価する。
GPT-NeoX-20Bは特に強力で、同様のサイズのGPT-3やFairSeqモデルよりも5ショットの評価で性能が向上している。
トレーニングと評価のコードとモデルの重み付けはhttps://github.com/EleutherAI/gpt-neox.orgで公開しています。
関連論文リスト
- Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.18107944503436]
Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。
私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。
近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
論文 参考訳(メタデータ) (2024-09-25T17:59:51Z) - ChuXin: 1.6B Technical Report [7.03872473285061]
ChuXinは16億のパラメータを持つ完全にオープンソースな言語モデルである。
トレーニングデータ、トレーニングプロセス、評価コードなど、モデルをトレーニングするために必要なものはすべて用意しました。
論文 参考訳(メタデータ) (2024-05-08T05:54:44Z) - SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。
ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。
オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文 参考訳(メタデータ) (2023-08-25T14:56:21Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - GLM-130B: An Open Bilingual Pre-trained Model [56.694470924635624]
我々は,130億のパラメータを持つバイリンガル(英語と中国語)事前学習言語モデルであるGLM-130Bを紹介する。
100Bスケールのモデルを少なくとも GPT-3 (davinci) と同程度にオープンソース化し、そのようなスケールのモデルがどのように事前訓練されるかを明らかにする試みである。
論文 参考訳(メタデータ) (2022-10-05T17:34:44Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese [33.83704598544326]
Mengziは、差別的、生成的、ドメイン固有、およびマルチモーダル事前訓練されたモデルの亜種である。
中国の公共のPLMと比較すると、メンジは単純だがより強力である。
我々の軽量モデルは、広く使われているCLUEベンチマークにおいて、最先端の新たな結果を得た。
論文 参考訳(メタデータ) (2021-10-13T13:14:32Z) - ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language
Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。
自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。
我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文 参考訳(メタデータ) (2021-07-05T16:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。