論文の概要: Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs
- arxiv url: http://arxiv.org/abs/2403.20041v1
- Date: Fri, 29 Mar 2024 08:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:15:12.233151
- Title: Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs
- Title(参考訳): Transformer-Lite: 携帯電話GPU上での大規模言語モデルの高効率展開
- Authors: Luchang Li, Sheng Qian, Jie Lu, Lunxi Yuan, Rui Wang, Qin Xie,
- Abstract要約: 大規模言語モデル(LLM)は、インテリジェントアシスタント、テキスト要約、翻訳、携帯電話でのマルチモダリティといったタスクに広く使われている。
デバイスGPU上でのLLMの高効率展開を容易にするため,我々は4つの最適化手法を提案する。
モバイル推論エンジンであるTransformer-LiteはQualcommおよびMTKプロセッサと互換性がある。
- 参考スコア(独自算出の注目度): 15.276687781165608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Large Language Model (LLM) is widely employed for tasks such as intelligent assistants, text summarization, translation, and multi-modality on mobile phones. However, the current methods for on-device LLM deployment maintain slow inference speed, which causes poor user experience. To facilitate high-efficiency LLM deployment on device GPUs, we propose four optimization techniques: (a) a symbolic expression-based approach to support dynamic shape model inference; (b) operator optimizations and execution priority setting to enhance inference speed and reduce phone lagging; (c) an FP4 quantization method termed M0E4 to reduce dequantization overhead; (d) a sub-tensor-based technique to eliminate the need for copying KV cache after LLM inference. Furthermore, we implement these methods in our mobile inference engine, Transformer-Lite, which is compatible with both Qualcomm and MTK processors. We evaluated Transformer-Lite's performance using LLMs with varied architectures and parameters ranging from 2B to 14B. Specifically, we achieved prefill and decoding speeds of 121 token/s and 14 token/s for ChatGLM2 6B, and 330 token/s and 30 token/s for smaller Gemma 2B, respectively. Compared with CPU-based FastLLM and GPU-based MLC-LLM, our engine attains over 10x speedup for the prefill speed and 2~3x speedup for the decoding speed.
- Abstract(参考訳): 大規模言語モデル(LLM)は、インテリジェントアシスタント、テキスト要約、翻訳、携帯電話でのマルチモダリティといったタスクに広く使われている。
しかし、現在のデバイス上でのLCMデプロイメントの手法は推論速度を遅く保ち、ユーザエクスペリエンスを損なう。
デバイスGPU上でのLLMの高効率展開を容易にするため,我々は4つの最適化手法を提案する。
(a)動的形状モデル推論を支援する記号表現に基づくアプローチ
b) 推測速度を向上し、通話遅延を低減するための演算子最適化及び実行優先設定
(c)M0E4と呼ばれるFP4量子化法により、復号化オーバーヘッドを低減する。
(d)LLM推論後にKVキャッシュをコピーする必要がないサブテンソルベースの手法。
さらに,これらの手法をモバイル推論エンジンであるTransformer-Liteに実装し,Qualcomm と MTK の両プロセッサに互換性を持たせた。
2Bから14Bまでの異なるアーキテクチャとパラメータを持つLLMを用いてTransformer-Liteの性能を評価した。
具体的には,ChatGLM2 6Bでは121トークン/s,ChatGLM2 6Bでは14トークン/s,Gemma 2Bでは330トークン/s,Gemma 2Bでは30トークン/sのプリフィルとデコードを実現した。
CPUベースのFastLLMやGPUベースのMLC-LLMと比較して、エンジンはプリフィル速度で10倍以上のスピードアップ、デコード速度で2~3倍のスピードアップを実現しています。
関連論文リスト
- BitMoD: Bit-serial Mixture-of-Datatype LLM Acceleration [7.774285511386959]
大規模言語モデル(LLM)は、さまざまな機械学習タスクで顕著なパフォーマンスを示している。
しかし、LLMのかなりのメモリフットプリントは、そのデプロイメントを著しく妨げている。
我々は,アルゴリズムとハードウェアの共同設計ソリューションであるBitMoDを用いて,LLMのアクセシビリティを向上させる。
論文 参考訳(メタデータ) (2024-11-18T17:16:58Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Empowering 1000 tokens/second on-device LLM prefilling with mllm-NPU [10.80559106452755]
mllm-NPUはアルゴリズムシステムの共同設計であり、LLMアーキテクチャと現在のNPU設計の間のいくつかの意味的ギャップに対処している。
初めて、mllm-NPUは10億規模のモデルで1000トークン/秒以上のプリフィルを達成する。
論文 参考訳(メタデータ) (2024-07-08T12:20:45Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Efficient LLM inference solution on Intel GPU [19.154403468201924]
トランスフォーマーベースの大規模言語モデル(LLM)は多くの分野で広く使われている。
低レイテンシかつ高スループットで効率的なLLM推論ソリューションを提案する。
標準的なHuggingFaceの実装と比較して、提案されたソリューションは最大で7倍のトークンレイテンシと27倍のスループットを実現している。
論文 参考訳(メタデータ) (2023-12-19T05:40:43Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - FlashDecoding++: Faster Large Language Model Inference on GPUs [16.289377349637995]
本稿では,主要なLarge Language Model(LLM)推論をサポートする高速推論エンジンであるFlashDecoding++を紹介する。
上記の課題に対処するため、FlashDecoding++は、異なる部分的ソフトマックス計算のための統一された最大値技術を導入した。
FlashDecoding++はNVIDIAとAMDの両方のGPUで最大4.86倍と2.18倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2023-11-02T14:57:03Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。