論文の概要: A Survey of GPT-3 Family Large Language Models Including ChatGPT and
GPT-4
- arxiv url: http://arxiv.org/abs/2310.12321v1
- Date: Wed, 4 Oct 2023 16:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 02:12:11.135476
- Title: A Survey of GPT-3 Family Large Language Models Including ChatGPT and
GPT-4
- Title(参考訳): ChatGPT と GPT-4 を含む GPT-3 ファミリー大言語モデルの検討
- Authors: Katikapalli Subramanyam Kalyan
- Abstract要約: LLM(Large Language Model)は、モデルのサイズを拡大し、コーパスを事前訓練し、計算することで得られる訓練済み言語モデルの特殊なクラスである。
我々は GPT-3 とその後継 OpenAI モデルである ChatGPT と GPT4 を GPT-3 ファミリー大言語モデル (GLLM) と呼ぶ。
- 参考スコア(独自算出の注目度): 4.206175795966694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are a special class of pretrained language
models obtained by scaling model size, pretraining corpus and computation.
LLMs, because of their large size and pretraining on large volumes of text
data, exhibit special abilities which allow them to achieve remarkable
performances without any task-specific training in many of the natural language
processing tasks. The era of LLMs started with OpenAI GPT-3 model, and the
popularity of LLMs is increasing exponentially after the introduction of models
like ChatGPT and GPT4. We refer to GPT-3 and its successor OpenAI models,
including ChatGPT and GPT4, as GPT-3 family large language models (GLLMs). With
the ever-rising popularity of GLLMs, especially in the research community,
there is a strong need for a comprehensive survey which summarizes the recent
research progress in multiple dimensions and can guide the research community
with insightful future research directions. We start the survey paper with
foundation concepts like transformers, transfer learning, self-supervised
learning, pretrained language models and large language models. We then present
a brief overview of GLLMs and discuss the performances of GLLMs in various
downstream tasks, specific domains and multiple languages. We also discuss the
data labelling and data augmentation abilities of GLLMs, the robustness of
GLLMs, the effectiveness of GLLMs as evaluators, and finally, conclude with
multiple insightful future research directions. To summarize, this
comprehensive survey paper will serve as a good resource for both academic and
industry people to stay updated with the latest research related to GPT-3
family large language models.
- Abstract(参考訳): LLM(Large Language Model)は、モデルのサイズを拡大し、コーパスを事前訓練し、計算することで得られる訓練済み言語モデルの特殊なクラスである。
LLMは、そのサイズが大きく、大量のテキストデータで事前訓練されているため、多くの自然言語処理タスクにおいてタスク固有の訓練をすることなく、優れたパフォーマンスを達成できる特別な能力を示す。
OpenAI GPT-3 モデルから LLM の時代が始まり、ChatGPT や GPT4 といったモデルの導入によって LLM の人気は指数関数的に上昇している。
我々は、GPT-3とその後継OpenAIモデルであるChatGPTとGPT4を、GPT-3ファミリー大言語モデル(GLLM)と呼ぶ。
特に研究コミュニティでは,GLLMの人気がますます高まっているため,近年の研究の進歩を多次元にまとめた総合的な調査の必要性が強く,今後の研究方向の洞察に富む研究コミュニティを導くことができる。
本稿では,トランスフォーマー,トランスフォーメーション学習,自己教師あり学習,事前学習型言語モデル,大規模言語モデルといった基礎概念から調査論文を開始する。
次に、GLLMの概要と、さまざまな下流タスク、特定のドメイン、複数の言語におけるGLLMの性能について述べる。
また、GLLMのデータラベリングとデータ拡張能力、GLLMの堅牢性、評価器としてのGLLMの有効性についても論じ、最終的には複数の洞察に富んだ今後の研究方向性を結論づける。
要約すると、この総合的な調査論文は、GPT-3ファミリーの大規模言語モデルに関する最新の研究で、学術と産業の両方が更新を続けるための良い情報源となる。
関連論文リスト
- A Survey of Large Language Models for European Languages [4.328283741894074]
大規模言語モデル(LLM)は、多岐にわたる自然言語処理における高い性能のため、大きな注目を集めている。
LLaMA, PaLM, GPT, MoE など LLM ファミリーの概要を報告する。
大規模言語モデルの事前学習に使用される共通単言語および多言語データセットの包括的要約を提供する。
論文 参考訳(メタデータ) (2024-08-27T13:10:05Z) - Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。
我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。
LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文 参考訳(メタデータ) (2024-03-27T22:05:10Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - From Supervised to Generative: A Novel Paradigm for Tabular Deep Learning with Large Language Models [18.219485459836285]
GTL(Generative Tabular Learning)は、大規模言語モデル(LLM)の高度な機能を統合する新しいフレームワークである。
我々の実証的研究は、GTLのスケーリングの振る舞いを厳格に分析し、384の公開データセットにまたがる。
GTL-LLaMA-2モデルは、多くの分類および回帰タスクにまたがる優れたゼロショットおよびインコンテキスト学習能力を示す。
論文 参考訳(メタデータ) (2023-10-11T09:37:38Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。