論文の概要: A Comprehensive Overview of Large Language Models
- arxiv url: http://arxiv.org/abs/2307.06435v1
- Date: Wed, 12 Jul 2023 20:01:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 16:37:00.072574
- Title: A Comprehensive Overview of Large Language Models
- Title(参考訳): 大規模言語モデルの包括的概要
- Authors: Humza Naveed, Asad Ullah Khan, Shi Qiu, Muhammad Saqib, Saeed Anwar,
Muhammad Usman, Nick Barnes, Ajmal Mian
- Abstract要約: 大規模言語モデル(LLM)は優れた一般化能力を示している。
本稿では, LLMのアーキテクチャとその分類, トレーニング戦略, トレーニングデータセット, 性能評価を包括的に分析する。
- 参考スコア(独自算出の注目度): 48.424083528994494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown excellent generalization capabilities
that have led to the development of numerous models. These models propose
various new architectures, tweaking existing architectures with refined
training strategies, increasing context length, using high-quality training
data, and increasing training time to outperform baselines. Analyzing new
developments is crucial for identifying changes that enhance training stability
and improve generalization in LLMs. This survey paper comprehensively analyses
the LLMs architectures and their categorization, training strategies, training
datasets, and performance evaluations and discusses future research directions.
Moreover, the paper also discusses the basic building blocks and concepts
behind LLMs, followed by a complete overview of LLMs, including their important
features and functions. Finally, the paper summarizes significant findings from
LLM research and consolidates essential architectural and training strategies
for developing advanced LLMs. Given the continuous advancements in LLMs, we
intend to regularly update this paper by incorporating new sections and
featuring the latest LLM models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多数のモデルの開発に繋がる優れた一般化能力を示している。
これらのモデルは、様々な新しいアーキテクチャを提案し、洗練されたトレーニング戦略で既存のアーキテクチャを微調整し、コンテキストの長さを長くし、高品質なトレーニングデータを使用し、ベースラインを上回るトレーニング時間を増やす。
学習の安定性を高め、LLMの一般化を改善する変化を特定するためには、新しい開発分析が不可欠である。
本稿では,llmsアーキテクチャとその分類,トレーニング戦略,トレーニングデータセット,パフォーマンス評価を包括的に分析し,今後の研究動向について考察する。
さらに,LLMの背後にある基本的な構成要素や概念についても論じるとともに,その重要な特徴や機能を含むLLMの概要を概観する。
最後に,LLM 研究から得られた重要な知見を要約し,高度 LLM 開発に不可欠なアーキテクチャとトレーニング戦略を統合する。
LLMの継続的な進歩を踏まえ、我々は新しいセクションを取り入れ、最新のLLMモデルを特徴付けることで定期的に更新する。
関連論文リスト
- Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models [32.336273322481276]
多様な機能にもかかわらず、Large Language Models (LLM) は様々な長所と短所を示す。
これらの課題に対処するため、最近の研究はLLMの協調戦略を探求している。
本稿では,この新たな研究領域の概要を概観し,そのようなコラボレーションの背景にあるモチベーションを明らかにする。
論文 参考訳(メタデータ) (2024-07-08T16:29:08Z) - Can LLMs Solve longer Math Word Problems Better? [47.227621867242]
大規模言語モデル(LLM)の能力評価にはMWP(Math Word Problems)が不可欠である
この研究は、文脈長一般化可能性(CoLeG)の探索の先駆者である。
これらの問題を解決する上で, LLMの有効性とレジリエンスを評価するために, 2つの新しい指標が提案されている。
論文 参考訳(メタデータ) (2024-05-23T17:13:50Z) - ChatGPT Alternative Solutions: Large Language Models Survey [0.0]
大規模言語モデル(LLM)はこの領域における研究貢献の急増に火をつけた。
近年、学術と産業のダイナミックな相乗効果が見られ、LLM研究の分野を新たな高地へと押し上げた。
この調査は、ジェネレーティブAIの現状をよく理解し、さらなる探索、強化、イノベーションの機会に光を当てている。
論文 参考訳(メタデータ) (2024-03-21T15:16:50Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。