Fugu-MT 論文翻訳(概要): GPT-NeoX-20B: An Open-Source Autoregressive Language Model

論文の概要: GPT-NeoX-20B: An Open-Source Autoregressive Language Model

arxiv url: http://arxiv.org/abs/2204.06745v1
Date: Thu, 14 Apr 2022 04:00:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-16 00:39:43.050137
Title: GPT-NeoX-20B: An Open-Source Autoregressive Language Model
Title（参考訳）: GPT-NeoX-20B: オープンソースの自己回帰型言語モデル
Authors: Sid Black and Stella Biderman and Eric Hallahan and Quentin Anthony and Leo Gao and Laurence Golding and Horace He and Connor Leahy and Kyle McDonell and Jason Phang and Michael Pieler and USVSN Sai Prashanth and Shivanshu Purohit and Laria Reynolds and Jonathan Tow and Ben Wang and Samuel Weinbach
Abstract要約: GPT-NeoX-20Bは、Pileで訓練された200億のパラメータの自動回帰言語モデルである。ウェイトは寛容なライセンスで、自由に公開することができる。
参考スコア（独自算出の注目度）: 16.27825182552061
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce GPT-NeoX-20B, a 20 billion parameter autoregressive language model trained on the Pile, whose weights will be made freely and openly available to the public through a permissive license. It is, to the best of our knowledge, the largest dense autoregressive model that has publicly available weights at the time of submission. In this work, we describe \model{}'s architecture and training and evaluate its performance on a range of language-understanding, mathematics, and knowledge-based tasks. We find that GPT-NeoX-20B is a particularly powerful few-shot reasoner and gains far more in performance when evaluated five-shot than similarly sized GPT-3 and FairSeq models. We open-source the training and evaluation code, as well as the model weights, at https://github.com/EleutherAI/gpt-neox.
Abstract（参考訳）: GPT-NeoX-20Bは、パイルで訓練された200億のパラメータの自動回帰言語モデルであり、その重み付けはパーミッシブライセンスを通じて、無料で公開される。私たちの知る限りでは、提出時点で一般に利用可能な重量を持つ最大の密集自己回帰モデルである。本稿では, 言語理解, 数学, 知識に基づくタスクにおいて, モデル{}のアーキテクチャとトレーニングを記述し, その性能を評価する。 GPT-NeoX-20Bは特に強力で、同様のサイズのGPT-3やFairSeqモデルよりも5ショットの評価で性能が向上している。トレーニングと評価のコードとモデルの重み付けはhttps://github.com/EleutherAI/gpt-neox.orgで公開しています。

関連論文リスト

BgGPT 1.0: Extending English-centric LLMs to other languages [12.867025651644692]
本稿では,BgGPT-Gemma-2-27B-InstructとBgGPT-Gemma-2-9B-Instructについて述べる。我々のモデルはブルガリア語のタスクにおいて強力なパフォーマンスを示し、言語固有のAIモデルの新しい標準を設定します。
論文参考訳（メタデータ） (2024-12-14T16:49:52Z)
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.18107944503436]
Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
論文参考訳（メタデータ） (2024-09-25T17:59:51Z)
ChuXin: 1.6B Technical Report [7.03872473285061]
ChuXinは16億のパラメータを持つ完全にオープンソースな言語モデルである。トレーニングデータ、トレーニングプロセス、評価コードなど、モデルをトレーニングするために必要なものはすべて用意しました。
論文参考訳（メタデータ） (2024-05-08T05:54:44Z)
SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文参考訳（メタデータ） (2023-08-25T14:56:21Z)
What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。また、多言語モデルの性能と、英語のみとの比較についても検討する。私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文参考訳（メタデータ） (2022-10-27T13:43:27Z)
GLM-130B: An Open Bilingual Pre-trained Model [56.694470924635624]
我々は,130億のパラメータを持つバイリンガル(英語と中国語)事前学習言語モデルであるGLM-130Bを紹介する。 100Bスケールのモデルを少なくとも GPT-3 (davinci) と同程度にオープンソース化し、そのようなスケールのモデルがどのように事前訓練されるかを明らかにする試みである。
論文参考訳（メタデータ） (2022-10-05T17:34:44Z)
Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文参考訳（メタデータ） (2022-10-01T04:08:50Z)
mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文参考訳（メタデータ） (2022-04-15T13:02:33Z)
A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。 Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。 GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文参考訳（メタデータ） (2022-02-26T15:53:55Z)
bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。 bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文参考訳（メタデータ） (2021-10-14T04:05:25Z)
Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese [33.83704598544326]
Mengziは、差別的、生成的、ドメイン固有、およびマルチモーダル事前訓練されたモデルの亜種である。中国の公共のPLMと比較すると、メンジは単純だがより強力である。我々の軽量モデルは、広く使われているCLUEベンチマークにおいて、最先端の新たな結果を得た。
論文参考訳（メタデータ） (2021-10-13T13:14:32Z)
ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文参考訳（メタデータ） (2021-07-05T16:54:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。