論文の概要: Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2402.06196v2
- Date: Tue, 20 Feb 2024 13:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 19:26:29.703661
- Title: Large Language Models: A Survey
- Title(参考訳): 大規模言語モデル:調査
- Authors: Shervin Minaee, Tomas Mikolov, Narjes Nikzad, Meysam Chenaghlu,
Richard Socher, Xavier Amatriain, Jianfeng Gao
- Abstract要約: 大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
- 参考スコア(独自算出の注目度): 69.72787936480394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have drawn a lot of attention due to their
strong performance on a wide range of natural language tasks, since the release
of ChatGPT in November 2022. LLMs' ability of general-purpose language
understanding and generation is acquired by training billions of model's
parameters on massive amounts of text data, as predicted by scaling laws
\cite{kaplan2020scaling,hoffmann2022training}. The research area of LLMs, while
very recent, is evolving rapidly in many different ways. In this paper, we
review some of the most prominent LLMs, including three popular LLM families
(GPT, LLaMA, PaLM), and discuss their characteristics, contributions and
limitations. We also give an overview of techniques developed to build, and
augment LLMs. We then survey popular datasets prepared for LLM training,
fine-tuning, and evaluation, review widely used LLM evaluation metrics, and
compare the performance of several popular LLMs on a set of representative
benchmarks. Finally, we conclude the paper by discussing open challenges and
future research directions.
- Abstract(参考訳): 大規模言語モデル(llm)は2022年11月にchatgptがリリースされて以来、幅広い自然言語タスクでの強力なパフォーマンスのために多くの注目を集めてきた。
LLMの汎用言語理解と生成能力は、スケール法であるcite{kaplan2020scaling,hoffmann2022training}によって予測されるように、大量のテキストデータに基づいて数十億のモデルのパラメータをトレーニングすることで獲得される。
LLMの研究領域は、非常に最近ではあるが、様々な方法で急速に進化している。
本稿では,3つのLLMファミリー (GPT, LLaMA, PaLM) について概説し,その特性,コントリビューション,限界について論じる。
また,LLMの構築,拡張のために開発された技術の概要についても述べる。
次に、LLMトレーニング、微調整、評価のための一般的なデータセットを調査し、広く使われているLLM評価指標をレビューし、代表ベンチマークのセットでいくつかの人気のあるLLMの性能を比較した。
最後に,オープンチャレンジと今後の研究方向性について論じて,論文をまとめる。
関連論文リスト
- Time Series Forecasting with LLMs: Understanding and Enhancing Model
Capabilities [39.874834611685124]
大規模言語モデル(LLM)は近年,急速な発展を遂げた多くの分野に適用されている。
本稿では,LLMがパターンや傾向を明確にした時系列予測に優れるが,周期性に欠けるデータセットでは課題に直面していることを示す。
さらに, 入力戦略について検討し, 外部知識を取り入れ, 自然言語のパラフレーズを取り入れた場合, 時系列におけるLLMの予測性能に肯定的な影響が認められた。
論文 参考訳(メタデータ) (2024-02-16T17:15:28Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Evaluating Large Language Models at Evaluating Instruction Following [57.74447923909296]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,これらの「LLM評価器」の有効性について検討する。
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - A Comprehensive Overview of Large Language Models [70.78732351626734]
大規模言語モデル(LLM)は、最近自然言語処理タスクにおいて顕著な機能を示した。
本稿では, LLM関連概念の幅広い範囲について, 既存の文献について概説する。
論文 参考訳(メタデータ) (2023-07-12T20:01:52Z) - Several categories of Large Language Models (LLMs): A Short Survey [3.73538163699716]
大規模言語モデル(LLM)は、自然言語処理の効果的なツールとなり、様々な分野で使われてきた。
この調査は、タスクベースの金融LLM、多言語LLM、バイオメディカルおよび臨床LLM、ビジョン言語LLM、コード言語モデルなど、近年のLLMの発展と取り組みを強調している。
論文 参考訳(メタデータ) (2023-07-05T18:18:23Z) - A Primer on Pretrained Multilingual Language Models [18.943173499882885]
MLLM(Multilingual Language Models)は、多数の言語に事前学習の能力をもたらすための実行可能な選択肢として登場した。
本報告では,MLLMに関する研究分野について概説する。
論文 参考訳(メタデータ) (2021-07-01T18:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。