論文の概要: Small Language Models: Survey, Measurements, and Insights
- arxiv url: http://arxiv.org/abs/2409.15790v1
- Date: Tue, 24 Sep 2024 06:36:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 08:41:18.937618
- Title: Small Language Models: Survey, Measurements, and Insights
- Title(参考訳): 小さな言語モデル: 調査,測定,洞察
- Authors: Zhenyan Lu, Xiang Li, Dongqi Cai, Rongjie Yi, Fangming Liu, Xiwen Zhang, Nicholas D. Lane, Mengwei Xu,
- Abstract要約: 小型言語モデル (SLM) は大規模言語モデル (LLM) に比べて学術的関心が著しく少ない。
59の最先端のオープンソースSLMを調査し、アーキテクチャ、トレーニングデータセット、トレーニングアルゴリズムという3つの軸にわたる技術革新を分析します。
- 参考スコア(独自算出の注目度): 21.211248351779467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small language models (SLMs), despite their widespread adoption in modern smart devices, have received significantly less academic attention compared to their large language model (LLM) counterparts, which are predominantly deployed in data centers and cloud environments. While researchers continue to improve the capabilities of LLMs in the pursuit of artificial general intelligence, SLM research aims to make machine intelligence more accessible, affordable, and efficient for everyday tasks. Focusing on transformer-based, decoder-only language models with 100M-5B parameters, we survey 59 state-of-the-art open-source SLMs, analyzing their technical innovations across three axes: architectures, training datasets, and training algorithms. In addition, we evaluate their capabilities in various domains, including commonsense reasoning, in-context learning, mathematics, and coding. To gain further insight into their on-device runtime costs, we benchmark their inference latency and memory footprints. Through in-depth analysis of our benchmarking data, we offer valuable insights to advance research in this field.
- Abstract(参考訳): スモールランゲージモデル(SLM)は、現代のスマートデバイスに広く採用されているにもかかわらず、データセンターやクラウド環境に主にデプロイされる大規模言語モデル(LLM)と比較して、学術的な注目を集めていない。
研究者たちは、人工知能の追求においてLLMの能力を改善し続けているが、SLMの研究は、マシンインテリジェンスをより使いやすく、手頃な価格で、日々の作業に効率的にすることを目指している。
100M-5Bパラメータを持つトランスフォーマーベースでデコーダのみの言語モデルに着目し、59の最先端のオープンソースSLMを調査し、アーキテクチャ、トレーニングデータセット、トレーニングアルゴリズムの3つの軸にわたる技術革新を分析した。
さらに,コモンセンス推論,インコンテキスト学習,数学,コーディングなど,様々な領域におけるそれらの能力を評価する。
デバイス上でのランタイムコストに関するさらなる洞察を得るために、推論のレイテンシとメモリフットプリントをベンチマークします。
ベンチマークデータの詳細な分析を通じて、この分野の研究を進める上で貴重な洞察を提供する。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
大規模言語モデルにおける一般化と記憶の相互作用について検討する。
各種のオープンソースLLMとその事前学習コーパスを用いて、モデルのサイズが大きくなるにつれて、タスク関連$n$-gramのペアデータの重要性が増すのを観察する。
その結果,LLMの能力は,十分なタスク関連事前学習データによる記憶と一般化の微妙なバランスから生じるという仮説を支持した。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - INDUS: Effective and Efficient Language Models for Scientific Applications [8.76933154920986]
言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。
従来の研究では、ドメイン中心のコーパスを使用して訓練されたLLMが、特別なタスクでより良く機能することを示した。
我々は地球科学、生物学、物理学、生物物理学、惑星科学、天体物理学の分野に適した総合的なLLMスイートであるINDUSを開発した。
論文 参考訳(メタデータ) (2024-05-17T12:15:07Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Towards Efficient Generative Large Language Model Serving: A Survey from
Algorithms to Systems [14.355768064425598]
生成型大規模言語モデル(LLM)が最前線に立ち、データとのインタラクション方法に革命をもたらします。
しかし、これらのモデルをデプロイする際の計算強度とメモリ消費は、効率性の観点から大きな課題を呈している。
本研究は,機械学習システム(MLSys)研究の観点から,効率的なLCM提供手法の必要性について考察する。
論文 参考訳(メタデータ) (2023-12-23T11:57:53Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z) - MindLLM: Pre-training Lightweight Large Language Model from Scratch,
Evaluations and Domain Applications [46.337078949637345]
我々は、スクラッチから訓練されたバイリンガル軽量な大規模言語モデルの新しいシリーズであるMindLLMを紹介する。
大規模なモデル開発で得られた経験の詳細な説明が与えられ、プロセスのすべてのステップをカバーする。
MindLLMは、いくつかの公開ベンチマークにおいて、他のオープンソースの大規模モデルのパフォーマンスと一貫して一致または上回っている。
論文 参考訳(メタデータ) (2023-10-24T12:22:34Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - KITLM: Domain-Specific Knowledge InTegration into Language Models for
Question Answering [30.129418454426844]
大規模言語モデル(LLM)は、幅広い自然言語処理において顕著な性能を示した。
関連情報注入による言語モデルへの知識ベース統合手法であるKITLMを提案する。
提案手法は,GPT-3.5-turbo と最先端知識注入法 SKILL を併用し,MetaQA 上での精度の1.5倍の精度向上を実現している。
論文 参考訳(メタデータ) (2023-08-07T14:42:49Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。