論文の概要: Small Language Models: Survey, Measurements, and Insights
- arxiv url: http://arxiv.org/abs/2409.15790v1
- Date: Tue, 24 Sep 2024 06:36:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 08:41:18.937618
- Title: Small Language Models: Survey, Measurements, and Insights
- Title(参考訳): 小さな言語モデル: 調査,測定,洞察
- Authors: Zhenyan Lu, Xiang Li, Dongqi Cai, Rongjie Yi, Fangming Liu, Xiwen Zhang, Nicholas D. Lane, Mengwei Xu,
- Abstract要約: 小型言語モデル (SLM) は大規模言語モデル (LLM) に比べて学術的関心が著しく少ない。
59の最先端のオープンソースSLMを調査し、アーキテクチャ、トレーニングデータセット、トレーニングアルゴリズムという3つの軸にわたる技術革新を分析します。
- 参考スコア(独自算出の注目度): 21.211248351779467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small language models (SLMs), despite their widespread adoption in modern smart devices, have received significantly less academic attention compared to their large language model (LLM) counterparts, which are predominantly deployed in data centers and cloud environments. While researchers continue to improve the capabilities of LLMs in the pursuit of artificial general intelligence, SLM research aims to make machine intelligence more accessible, affordable, and efficient for everyday tasks. Focusing on transformer-based, decoder-only language models with 100M-5B parameters, we survey 59 state-of-the-art open-source SLMs, analyzing their technical innovations across three axes: architectures, training datasets, and training algorithms. In addition, we evaluate their capabilities in various domains, including commonsense reasoning, in-context learning, mathematics, and coding. To gain further insight into their on-device runtime costs, we benchmark their inference latency and memory footprints. Through in-depth analysis of our benchmarking data, we offer valuable insights to advance research in this field.
- Abstract(参考訳): スモールランゲージモデル(SLM)は、現代のスマートデバイスに広く採用されているにもかかわらず、データセンターやクラウド環境に主にデプロイされる大規模言語モデル(LLM)と比較して、学術的な注目を集めていない。
研究者たちは、人工知能の追求においてLLMの能力を改善し続けているが、SLMの研究は、マシンインテリジェンスをより使いやすく、手頃な価格で、日々の作業に効率的にすることを目指している。
100M-5Bパラメータを持つトランスフォーマーベースでデコーダのみの言語モデルに着目し、59の最先端のオープンソースSLMを調査し、アーキテクチャ、トレーニングデータセット、トレーニングアルゴリズムの3つの軸にわたる技術革新を分析した。
さらに,コモンセンス推論,インコンテキスト学習,数学,コーディングなど,様々な領域におけるそれらの能力を評価する。
デバイス上でのランタイムコストに関するさらなる洞察を得るために、推論のレイテンシとメモリフットプリントをベンチマークします。
ベンチマークデータの詳細な分析を通じて、この分野の研究を進める上で貴重な洞察を提供する。
関連論文リスト
- A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - On-Device Language Models: A Comprehensive Review [26.759861320845467]
資源制約のあるデバイスに計算コストの高い大規模言語モデルをデプロイする際の課題について検討する。
論文は、デバイス上での言語モデル、その効率的なアーキテクチャ、および最先端の圧縮技術について考察する。
主要モバイルメーカーによるオンデバイス言語モデルのケーススタディは、実世界の応用と潜在的な利益を実証している。
論文 参考訳(メタデータ) (2024-08-26T03:33:36Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Towards Efficient Generative Large Language Model Serving: A Survey from
Algorithms to Systems [14.355768064425598]
生成型大規模言語モデル(LLM)が最前線に立ち、データとのインタラクション方法に革命をもたらします。
しかし、これらのモデルをデプロイする際の計算強度とメモリ消費は、効率性の観点から大きな課題を呈している。
本研究は,機械学習システム(MLSys)研究の観点から,効率的なLCM提供手法の必要性について考察する。
論文 参考訳(メタデータ) (2023-12-23T11:57:53Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - KITLM: Domain-Specific Knowledge InTegration into Language Models for
Question Answering [30.129418454426844]
大規模言語モデル(LLM)は、幅広い自然言語処理において顕著な性能を示した。
関連情報注入による言語モデルへの知識ベース統合手法であるKITLMを提案する。
提案手法は,GPT-3.5-turbo と最先端知識注入法 SKILL を併用し,MetaQA 上での精度の1.5倍の精度向上を実現している。
論文 参考訳(メタデータ) (2023-08-07T14:42:49Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。