論文の概要: MobileLLM: Optimizing Sub-billion Parameter Language Models for
On-Device Use Cases
- arxiv url: http://arxiv.org/abs/2402.14905v1
- Date: Thu, 22 Feb 2024 18:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:38:59.730298
- Title: MobileLLM: Optimizing Sub-billion Parameter Language Models for
On-Device Use Cases
- Title(参考訳): MobileLLM:オンデバイスユースケースのためのサブビリオンパラメータ言語モデル最適化
- Authors: Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian,
Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman
Krishnamoorthi, Liangzhen Lai, Vikas Chandra
- Abstract要約: 本稿では、クラウドコストの増大とレイテンシの懸念により、モバイルデバイス上での効率的な大規模言語モデル(LLM)の必要性に対処する。
モバイルデプロイメントの実践的な選択として,10億未満のパラメータで高品質なLLMを設計することに重点を置いています。
- 参考スコア(独自算出の注目度): 47.96655222695618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the growing need for efficient large language models
(LLMs) on mobile devices, driven by increasing cloud costs and latency
concerns. We focus on designing top-quality LLMs with fewer than a billion
parameters, a practical choice for mobile deployment. Contrary to prevailing
belief emphasizing the pivotal role of data and parameter quantity in
determining model quality, our investigation underscores the significance of
model architecture for sub-billion scale LLMs. Leveraging deep and thin
architectures, coupled with embedding sharing and grouped-query attention
mechanisms, we establish a strong baseline network denoted as MobileLLM, which
attains a remarkable 2.7%/4.3% accuracy boost over preceding 125M/350M
state-of-the-art models. Additionally, we propose an immediate block-wise
weight sharing approach with no increase in model size and only marginal
latency overhead. The resultant models, denoted as MobileLLM-LS, demonstrate a
further accuracy enhancement of 0.7%/0.8% than MobileLLM 125M/350M. Moreover,
MobileLLM model family shows significant improvements compared to previous
sub-billion models on chat benchmarks, and demonstrates close correctness to
LLaMA-v2 7B in API calling tasks, highlighting the capability of small models
for common on-device use cases.
- Abstract(参考訳): 本稿では、クラウドコストの増大とレイテンシの懸念から、モバイルデバイス上での効率的な大規模言語モデル(LLM)の必要性の高まりに対処する。
モバイルデプロイメントの実践的な選択として,10億パラメータ未満の高品質なLLMの設計に重点を置いています。
モデル品質決定におけるデータとパラメータ量の重要な役割を強調する一般的な信念とは対照的に,本研究は,数十億以下のスケールllmにおけるモデルアーキテクチャの重要性を強調する。
深層および薄層アーキテクチャを活用し,組込み共有とグループ化クエリアテンション機構を併用して,MobileLLMと呼ばれる強力なベースラインネットワークを構築し,125M/350Mの最先端モデルよりも2.7%/4.3%の精度向上を実現した。
さらに,モデルサイズが増加せず,限界遅延のみのオーバーヘッドを伴わない即時ブロック単位の重み共有手法を提案する。
結果として得られたモデルはMobileLLM-LSと呼ばれ、MobileLLM 125M/350Mよりも精度が0.7%/0.8%向上した。
さらに、MobileLLMモデルファミリは、チャットベンチマークの以前のサブビリオンモデルに比べて大幅に改善され、API呼び出しタスクにおけるLLaMA-v2 7Bの精度が向上し、一般的なオンデバイスユースケース向けの小さなモデルの性能が強調された。
関連論文リスト
- MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - YOLO-TLA: An Efficient and Lightweight Small Object Detection Model
based on YOLOv5 [17.525977065621724]
YOLO-TLAは、YOLOv5上に構築された高度な物体検出モデルである。
まず、ネックネットワークピラミッドアーキテクチャにおいて、小さなオブジェクトに対する検出層を新たに導入する。
このモジュールはスライディングウィンドウの特徴抽出を使い、計算要求とパラメータ数の両方を効果的に最小化する。
論文 参考訳(メタデータ) (2024-02-22T05:55:17Z) - Lightweight Face Recognition: An Improved MobileFaceNet Model [0.0]
本稿では,MobileFaceNetとその修正版であるMMobileFaceNetについて述べる。
計算資源が限られているデバイス上での効率的なFRモデルの必要性は、メモリフットプリントを削減し、精度を犠牲にすることなく計算要求を減らしたモデルの開発につながった。
論文 参考訳(メタデータ) (2023-11-26T15:01:00Z) - AutoML for Large Capacity Modeling of Meta's Ranking Systems [29.717756064694278]
本稿では,大容量モデル構築のためのサンプリングベースAutoML手法を提案する。
提案手法は,優れた投資収益率(ROI)と人為的調整ベースライン(調整ベースライン)を達成可能であることを示す。
提案されたAutoMLメソッドは、大規模なオンラインA/Bテストで-0.36% NEゲインを持つInstagram CTRモデルが選択され、統計的に有意な増加を示すという、現実的な影響をすでに与えている。
論文 参考訳(メタデータ) (2023-11-14T03:00:50Z) - Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文 参考訳(メタデータ) (2023-10-11T15:56:00Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured
Pruning [57.12877119005303]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Rethinking Mobile Block for Efficient Attention-based Models [60.0312591342016]
本稿では、パラメータ、FLOP、性能をトレードオフしながら、高密度予測のための現代的で効率的で軽量なモデルを開発することに焦点を当てる。
Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注目に基づく研究ではその存在は認められていない。
我々はCNNベースのIRBをアテンションベースモデルに拡張し、軽量モデル設計のためのMMB(One-Residual Meta Mobile Block)を抽象化する。
論文 参考訳(メタデータ) (2023-01-03T15:11:41Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Real-time Monocular Depth Estimation with Sparse Supervision on Mobile [2.5425323889482336]
近年、モバイルデバイスの普及に伴い、正確かつモバイルフレンドリーな深度モデルの重要性が高まっている。
キーとなる設計選択と研究によって、既存のアーキテクチャでさえ非常に競争力のあるパフォーマンスを達成できることが示されています。
モデルのバージョンは1Mパラメータを持つDIWで0.1208W、モバイルGPUで44FPSに達する。
論文 参考訳(メタデータ) (2021-05-25T16:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。