Fugu-MT 論文翻訳(概要): MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

論文の概要: MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

arxiv url: http://arxiv.org/abs/2402.14905v1
Date: Thu, 22 Feb 2024 18:58:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 16:38:59.730298
Title: MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases
Title（参考訳）: MobileLLM:オンデバイスユースケースのためのサブビリオンパラメータ言語モデル最適化
Authors: Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra
Abstract要約: 本稿では、クラウドコストの増大とレイテンシの懸念により、モバイルデバイス上での効率的な大規模言語モデル(LLM)の必要性に対処する。モバイルデプロイメントの実践的な選択として,10億未満のパラメータで高品質なLLMを設計することに重点を置いています。
参考スコア（独自算出の注目度）: 47.96655222695618
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper addresses the growing need for efficient large language models (LLMs) on mobile devices, driven by increasing cloud costs and latency concerns. We focus on designing top-quality LLMs with fewer than a billion parameters, a practical choice for mobile deployment. Contrary to prevailing belief emphasizing the pivotal role of data and parameter quantity in determining model quality, our investigation underscores the significance of model architecture for sub-billion scale LLMs. Leveraging deep and thin architectures, coupled with embedding sharing and grouped-query attention mechanisms, we establish a strong baseline network denoted as MobileLLM, which attains a remarkable 2.7%/4.3% accuracy boost over preceding 125M/350M state-of-the-art models. Additionally, we propose an immediate block-wise weight sharing approach with no increase in model size and only marginal latency overhead. The resultant models, denoted as MobileLLM-LS, demonstrate a further accuracy enhancement of 0.7%/0.8% than MobileLLM 125M/350M. Moreover, MobileLLM model family shows significant improvements compared to previous sub-billion models on chat benchmarks, and demonstrates close correctness to LLaMA-v2 7B in API calling tasks, highlighting the capability of small models for common on-device use cases.
Abstract（参考訳）: 本稿では、クラウドコストの増大とレイテンシの懸念から、モバイルデバイス上での効率的な大規模言語モデル(LLM)の必要性の高まりに対処する。モバイルデプロイメントの実践的な選択として,10億パラメータ未満の高品質なLLMの設計に重点を置いています。モデル品質決定におけるデータとパラメータ量の重要な役割を強調する一般的な信念とは対照的に,本研究は,数十億以下のスケールllmにおけるモデルアーキテクチャの重要性を強調する。深層および薄層アーキテクチャを活用し,組込み共有とグループ化クエリアテンション機構を併用して,MobileLLMと呼ばれる強力なベースラインネットワークを構築し,125M/350Mの最先端モデルよりも2.7%/4.3%の精度向上を実現した。さらに,モデルサイズが増加せず,限界遅延のみのオーバーヘッドを伴わない即時ブロック単位の重み共有手法を提案する。結果として得られたモデルはMobileLLM-LSと呼ばれ、MobileLLM 125M/350Mよりも精度が0.7%/0.8%向上した。さらに、MobileLLMモデルファミリは、チャットベンチマークの以前のサブビリオンモデルに比べて大幅に改善され、API呼び出しタスクにおけるLLaMA-v2 7Bの精度が向上し、一般的なオンデバイスユースケース向けの小さなモデルの性能が強調された。

関連論文リスト

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Empowering Smaller Models: Tuning LLaMA and Gemma with Chain-of-Thought for Ukrainian Exam Tasks [0.0]
小型またはコンパクトなモデルの方が効率的だが、表現不足の言語を十分にサポートしていないことが多い。この研究は、推論集約的なタスクを扱うために、コンパクトなオープンウェイト言語モデルのパラメータ効率の良い微調整の可能性を探る。統合タスクトピックとステップバイステップのソリューション生成によるチューニング手法は、マッチングタスクにおける標準チェーン・オブ・シンキングよりも優れる。
論文参考訳（メタデータ） (2025-03-18T07:44:49Z)
EMOv2: Pushing 5M Vision Model Frontier [92.21687467702972]
様々な下流タスクにおいて,5M級軽量モデルの新たなフロンティアを構築した。我々の研究は、Transformerにおける効率的なIRBと実用的なコンポーネントの軽量なインフラを再考する。 4G/5G帯でモデルをダウンロードする場合のモバイルユーザの遅延を考慮し,5M程度の軽量モデルの性能上限について検討する。
論文参考訳（メタデータ） (2024-12-09T17:12:22Z)
MARM: Unlocking the Future of Recommendation Systems through Memory Augmentation and Scalable Complexity [18.865266475439135]
MARM(Memory Augmented Recommendation Model)を提案する。 RecSysモデルの場合、モデルパラメータと比較して計算複雑性のFLOPは、注意深い制御を必要とするより高価な要素である。
論文参考訳（メタデータ） (2024-11-14T13:22:41Z)
MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。 MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文参考訳（メタデータ） (2024-06-12T22:58:12Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Imp: Highly Capable Large Multimodal Models for Mobile Devices [19.328141787433704]
大規模言語モデル(LLM)は、オープンワールドのマルチモーダル理解において顕著な汎用性を示している。それらは通常パラメータ重で計算集約的であり、リソース制約のあるシナリオにおける適用性を妨げます。本稿では,モデルアーキテクチャ,トレーニング戦略,トレーニングデータの観点から,軽量LMMの体系的研究を行う。その結果,2B-4Bスケールで高い能力を有するLMMのファミリーであるImpが得られた。
論文参考訳（メタデータ） (2024-05-20T15:23:19Z)
Quantifying the Capabilities of LLMs across Scale and Precision [12.879551933541345]
本研究では,モデルスケールと量子化がインストラクションモデルの性能に及ぼす影響について検討する。より大規模なモデルでは、精度の低下に対して例外的なレジリエンスを示し、4ビット量子化においても高い精度を維持することができることを示す。
論文参考訳（メタデータ） (2024-05-06T03:42:34Z)
MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文参考訳（メタデータ） (2024-04-09T15:36:50Z)
Lightweight Face Recognition: An Improved MobileFaceNet Model [0.0]
本稿では,MobileFaceNetとその修正版であるMMobileFaceNetについて述べる。計算資源が限られているデバイス上での効率的なFRモデルの必要性は、メモリフットプリントを削減し、精度を犠牲にすることなく計算要求を減らしたモデルの開発につながった。
論文参考訳（メタデータ） (2023-11-26T15:01:00Z)
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文参考訳（メタデータ） (2023-10-10T15:13:30Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。