論文の概要: Empowering 1000 tokens/second on-device LLM prefilling with mllm-NPU
- arxiv url: http://arxiv.org/abs/2407.05858v1
- Date: Mon, 8 Jul 2024 12:20:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 16:00:10.776556
- Title: Empowering 1000 tokens/second on-device LLM prefilling with mllm-NPU
- Title(参考訳): mllm-NPUを用いた1000トークン/秒オンデバイスLCMプリフィル
- Authors: Daliang Xu, Hao Zhang, Liming Yang, Ruiqi Liu, Gang Huang, Mengwei Xu, Xuanzhe Liu,
- Abstract要約: mllm-NPUはアルゴリズムシステムの共同設計であり、LLMアーキテクチャと現在のNPU設計の間のいくつかの意味的ギャップに対処している。
初めて、mllm-NPUは10億規模のモデルで1000トークン/秒以上のプリフィルを達成する。
- 参考スコア(独自算出の注目度): 10.80559106452755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-device large language models (LLMs) are catalyzing novel mobile applications such as UI task automation and personalized email auto-reply, without giving away users' private data. However, on-device LLMs still suffer from unacceptably long inference latency, especially the time to first token (prefill stage) due to the need of long context for accurate, personalized content generation, as well as the lack of parallel computing capacity of mobile CPU/GPU. To enable practical on-device LLM, we present mllm-NPU, the first-of-its-kind LLM inference system that efficiently leverages on-device Neural Processing Unit (NPU) offloading. Essentially, mllm-NPU is an algorithm-system co-design that tackles a few semantic gaps between the LLM architecture and contemporary NPU design. Specifically, it re-constructs the prompt and model in three levels: (1) At prompt level, it divides variable-length prompts into multiple fixed-sized chunks while maintaining data dependencies; (2) At tensor level, it identifies and extracts significant outliers to run on the CPU/GPU in parallel with minimal overhead; (3) At block level, it schedules Transformer blocks in an out-of-order manner to the CPU/GPU and NPU based on their hardware affinity and sensitivity to accuracy. Compared to competitive baselines, mllm-NPU achieves 22.4x faster prefill speed and 30.7x energy savings on average, and up to 32.8x speedup in an end-to-end real-world application. For the first time, mllm-NPU achieves more than 1,000 tokens/sec prefilling for a billion-sized model (Qwen1.5-1.8B), paving the way towards practical on-device LLM.
- Abstract(参考訳): デバイス上での大規模言語モデル(LLM)は、UIタスクの自動化やパーソナライズされたEメールの自動返信など、ユーザのプライベートデータを放棄することなく、新しいモバイルアプリケーションを実現している。
しかし、デバイス上でのLSMは、正確なパーソナライズされたコンテンツ生成のために長いコンテキストを必要とすることや、モバイルCPU/GPUの並列計算能力の欠如など、許容範囲の長い推論遅延、特に最初のトークン(準備段階)に悩まされている。
そこで本研究では,デバイス上でのニューラルネットワークユニット(NPU)のオフロードを効率よく活用する,最初期のLCM推論システムであるmllm-NPUを提案する。
基本的に、mllm-NPUはアルゴリズムシステムの共同設計であり、LLMアーキテクチャと現代のNPU設計の間のいくつかの意味的ギャップに対処している。
具体的には、プロンプトとモデルを3つのレベルに再構成する: (1) プロンプトレベルでは、変数長のプロンプトをデータ依存を維持しながら複数の固定サイズのチャンクに分割する; (2) テンソルレベルでは、最小オーバーヘッドでCPU/GPU上で実行する重要なアウトリーを識別し、抽出する; (3) ブロックレベルでは、ハードウェア親和性と精度に対する感受性に基づいて、トランスフォーマーブロックをCPU/GPUとNPUにアウト・オブ・オーダーでスケジュールする。
競合するベースラインと比較して、mllm-NPUは22.4倍高速なプリフィルと30.7倍の省エネを実現し、エンドツーエンドの現実世界アプリケーションでは最大32.8倍のスピードアップを実現している。
初めて、mllm-NPUは10億サイズのモデル(Qwen1.5-1.8B)で1000トークン/秒のプリフィルを達成する。
関連論文リスト
- POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。
POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文 参考訳(メタデータ) (2024-10-23T17:06:56Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。
我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文 参考訳(メタデータ) (2024-07-02T17:59:56Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs [15.276687781165608]
大規模言語モデル(LLM)は、インテリジェントアシスタント、テキスト要約、翻訳、携帯電話でのマルチモダリティといったタスクに広く使われている。
デバイスGPU上でのLLMの高効率展開を容易にするため,我々は4つの最適化手法を提案する。
モバイル推論エンジンであるTransformer-LiteはQualcommおよびMTKプロセッサと互換性がある。
論文 参考訳(メタデータ) (2024-03-29T08:26:53Z) - Recurrent Drafter for Fast Speculative Decoding in Large Language Models [18.342742904042673]
本稿では,高度な投機的復号法であるRecurrent Drafterを提案する。
大規模言語モデル(LLM)推論の最先端の高速化を実現する。
論文 参考訳(メタデータ) (2024-03-14T23:40:56Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Efficient Multi-stage Inference on Tabular Data [1.6371451481715193]
従来型の知恵は、MLコードをRPC API経由で製品コードによってクエリされるサービスに分離することを好む。
推論アルゴリズムを単純化し、それらを製品コードに組み込んでネットワーク通信を減らします。
トレーニングと推論の両方にAutoMLによる最適化を適用することで、推論遅延を1.3倍、CPUリソースを30%削減し、アプリケーションフロントエンドとMLバックエンド間のネットワーク通信を約50%削減します。
論文 参考訳(メタデータ) (2023-03-21T04:01:55Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。