論文の概要: MobileLLM: Optimizing Sub-billion Parameter Language Models for
On-Device Use Cases
- arxiv url: http://arxiv.org/abs/2402.14905v1
- Date: Thu, 22 Feb 2024 18:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:38:59.730298
- Title: MobileLLM: Optimizing Sub-billion Parameter Language Models for
On-Device Use Cases
- Title(参考訳): MobileLLM:オンデバイスユースケースのためのサブビリオンパラメータ言語モデル最適化
- Authors: Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian,
Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman
Krishnamoorthi, Liangzhen Lai, Vikas Chandra
- Abstract要約: 本稿では、クラウドコストの増大とレイテンシの懸念により、モバイルデバイス上での効率的な大規模言語モデル(LLM)の必要性に対処する。
モバイルデプロイメントの実践的な選択として,10億未満のパラメータで高品質なLLMを設計することに重点を置いています。
- 参考スコア(独自算出の注目度): 47.96655222695618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the growing need for efficient large language models
(LLMs) on mobile devices, driven by increasing cloud costs and latency
concerns. We focus on designing top-quality LLMs with fewer than a billion
parameters, a practical choice for mobile deployment. Contrary to prevailing
belief emphasizing the pivotal role of data and parameter quantity in
determining model quality, our investigation underscores the significance of
model architecture for sub-billion scale LLMs. Leveraging deep and thin
architectures, coupled with embedding sharing and grouped-query attention
mechanisms, we establish a strong baseline network denoted as MobileLLM, which
attains a remarkable 2.7%/4.3% accuracy boost over preceding 125M/350M
state-of-the-art models. Additionally, we propose an immediate block-wise
weight sharing approach with no increase in model size and only marginal
latency overhead. The resultant models, denoted as MobileLLM-LS, demonstrate a
further accuracy enhancement of 0.7%/0.8% than MobileLLM 125M/350M. Moreover,
MobileLLM model family shows significant improvements compared to previous
sub-billion models on chat benchmarks, and demonstrates close correctness to
LLaMA-v2 7B in API calling tasks, highlighting the capability of small models
for common on-device use cases.
- Abstract(参考訳): 本稿では、クラウドコストの増大とレイテンシの懸念から、モバイルデバイス上での効率的な大規模言語モデル(LLM)の必要性の高まりに対処する。
モバイルデプロイメントの実践的な選択として,10億パラメータ未満の高品質なLLMの設計に重点を置いています。
モデル品質決定におけるデータとパラメータ量の重要な役割を強調する一般的な信念とは対照的に,本研究は,数十億以下のスケールllmにおけるモデルアーキテクチャの重要性を強調する。
深層および薄層アーキテクチャを活用し,組込み共有とグループ化クエリアテンション機構を併用して,MobileLLMと呼ばれる強力なベースラインネットワークを構築し,125M/350Mの最先端モデルよりも2.7%/4.3%の精度向上を実現した。
さらに,モデルサイズが増加せず,限界遅延のみのオーバーヘッドを伴わない即時ブロック単位の重み共有手法を提案する。
結果として得られたモデルはMobileLLM-LSと呼ばれ、MobileLLM 125M/350Mよりも精度が0.7%/0.8%向上した。
さらに、MobileLLMモデルファミリは、チャットベンチマークの以前のサブビリオンモデルに比べて大幅に改善され、API呼び出しタスクにおけるLLaMA-v2 7Bの精度が向上し、一般的なオンデバイスユースケース向けの小さなモデルの性能が強調された。
関連論文リスト
- MARM: Unlocking the Future of Recommendation Systems through Memory Augmentation and Scalable Complexity [18.865266475439135]
MARM(Memory Augmented Recommendation Model)を提案する。
RecSysモデルの場合、モデルパラメータと比較して計算複雑性のFLOPは、注意深い制御を必要とするより高価な要素である。
論文 参考訳(メタデータ) (2024-11-14T13:22:41Z) - MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。
MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文 参考訳(メタデータ) (2024-06-12T22:58:12Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Imp: Highly Capable Large Multimodal Models for Mobile Devices [19.328141787433704]
大規模言語モデル(LLM)は、オープンワールドのマルチモーダル理解において顕著な汎用性を示している。
それらは通常パラメータ重で計算集約的であり、リソース制約のあるシナリオにおける適用性を妨げます。
本稿では,モデルアーキテクチャ,トレーニング戦略,トレーニングデータの観点から,軽量LMMの体系的研究を行う。
その結果,2B-4Bスケールで高い能力を有するLMMのファミリーであるImpが得られた。
論文 参考訳(メタデータ) (2024-05-20T15:23:19Z) - Quantifying the Capabilities of LLMs across Scale and Precision [12.879551933541345]
本研究では,モデルスケールと量子化がインストラクションモデルの性能に及ぼす影響について検討する。
より大規模なモデルでは、精度の低下に対して例外的なレジリエンスを示し、4ビット量子化においても高い精度を維持することができることを示す。
論文 参考訳(メタデータ) (2024-05-06T03:42:34Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - Lightweight Face Recognition: An Improved MobileFaceNet Model [0.0]
本稿では,MobileFaceNetとその修正版であるMMobileFaceNetについて述べる。
計算資源が限られているデバイス上での効率的なFRモデルの必要性は、メモリフットプリントを削減し、精度を犠牲にすることなく計算要求を減らしたモデルの開発につながった。
論文 参考訳(メタデータ) (2023-11-26T15:01:00Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。