論文の概要: Empowering 1000 tokens/second on-device LLM prefilling with mllm-NPU
- arxiv url: http://arxiv.org/abs/2407.05858v1
- Date: Mon, 8 Jul 2024 12:20:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 16:00:10.776556
- Title: Empowering 1000 tokens/second on-device LLM prefilling with mllm-NPU
- Title(参考訳): mllm-NPUを用いた1000トークン/秒オンデバイスLCMプリフィル
- Authors: Daliang Xu, Hao Zhang, Liming Yang, Ruiqi Liu, Gang Huang, Mengwei Xu, Xuanzhe Liu,
- Abstract要約: mllm-NPUはアルゴリズムシステムの共同設計であり、LLMアーキテクチャと現在のNPU設計の間のいくつかの意味的ギャップに対処している。
初めて、mllm-NPUは10億規模のモデルで1000トークン/秒以上のプリフィルを達成する。
- 参考スコア(独自算出の注目度): 10.80559106452755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-device large language models (LLMs) are catalyzing novel mobile applications such as UI task automation and personalized email auto-reply, without giving away users' private data. However, on-device LLMs still suffer from unacceptably long inference latency, especially the time to first token (prefill stage) due to the need of long context for accurate, personalized content generation, as well as the lack of parallel computing capacity of mobile CPU/GPU. To enable practical on-device LLM, we present mllm-NPU, the first-of-its-kind LLM inference system that efficiently leverages on-device Neural Processing Unit (NPU) offloading. Essentially, mllm-NPU is an algorithm-system co-design that tackles a few semantic gaps between the LLM architecture and contemporary NPU design. Specifically, it re-constructs the prompt and model in three levels: (1) At prompt level, it divides variable-length prompts into multiple fixed-sized chunks while maintaining data dependencies; (2) At tensor level, it identifies and extracts significant outliers to run on the CPU/GPU in parallel with minimal overhead; (3) At block level, it schedules Transformer blocks in an out-of-order manner to the CPU/GPU and NPU based on their hardware affinity and sensitivity to accuracy. Compared to competitive baselines, mllm-NPU achieves 22.4x faster prefill speed and 30.7x energy savings on average, and up to 32.8x speedup in an end-to-end real-world application. For the first time, mllm-NPU achieves more than 1,000 tokens/sec prefilling for a billion-sized model (Qwen1.5-1.8B), paving the way towards practical on-device LLM.
- Abstract(参考訳): デバイス上での大規模言語モデル(LLM)は、UIタスクの自動化やパーソナライズされたEメールの自動返信など、ユーザのプライベートデータを放棄することなく、新しいモバイルアプリケーションを実現している。
しかし、デバイス上でのLSMは、正確なパーソナライズされたコンテンツ生成のために長いコンテキストを必要とすることや、モバイルCPU/GPUの並列計算能力の欠如など、許容範囲の長い推論遅延、特に最初のトークン(準備段階)に悩まされている。
そこで本研究では,デバイス上でのニューラルネットワークユニット(NPU)のオフロードを効率よく活用する,最初期のLCM推論システムであるmllm-NPUを提案する。
基本的に、mllm-NPUはアルゴリズムシステムの共同設計であり、LLMアーキテクチャと現代のNPU設計の間のいくつかの意味的ギャップに対処している。
具体的には、プロンプトとモデルを3つのレベルに再構成する: (1) プロンプトレベルでは、変数長のプロンプトをデータ依存を維持しながら複数の固定サイズのチャンクに分割する; (2) テンソルレベルでは、最小オーバーヘッドでCPU/GPU上で実行する重要なアウトリーを識別し、抽出する; (3) ブロックレベルでは、ハードウェア親和性と精度に対する感受性に基づいて、トランスフォーマーブロックをCPU/GPUとNPUにアウト・オブ・オーダーでスケジュールする。
競合するベースラインと比較して、mllm-NPUは22.4倍高速なプリフィルと30.7倍の省エネを実現し、エンドツーエンドの現実世界アプリケーションでは最大32.8倍のスピードアップを実現している。
初めて、mllm-NPUは10億サイズのモデル(Qwen1.5-1.8B)で1000トークン/秒のプリフィルを達成する。
関連論文リスト
- Dovetail: A CPU/GPU Heterogeneous Speculative Decoding for LLM inference [20.68731158617374]
Dovetailは、GPUにドラフトモデルをデプロイしてドラフトトークンを生成し、ターゲットモデルをCPU上で並列検証可能にするアプローチである。
Dovetailは3GBのVRAMを使用してLLaMA2-Chat-7Bで毎秒5.86トークンの推論速度を実現しており、CPUのみの推論よりも約2.77倍改善されている。
論文 参考訳(メタデータ) (2024-12-25T15:45:18Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。
我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文 参考訳(メタデータ) (2024-07-02T17:59:56Z) - PowerInfer-2: Fast Large Language Model Inference on a Smartphone [4.75185107146461]
スマートフォン上の大規模言語モデル(LLM)は、リアルタイムAIアシストとプライバシ保護、オフライン操作を可能にする。
本稿では,メモリ容量を超えるLCMの高速推論を可能にするスマートフォンベースのフレームワークであるPowerInfer-2を紹介する。
PowerInfer-2は、スマートフォン上で47B LLMを提供する最初のシステムであり、11.68トークン/秒を達成した。
論文 参考訳(メタデータ) (2024-06-10T14:01:21Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs [15.276687781165608]
大規模言語モデル(LLM)は、インテリジェントアシスタント、テキスト要約、翻訳、携帯電話でのマルチモダリティといったタスクに広く使われている。
デバイスGPU上でのLLMの高効率展開を容易にするため,我々は4つの最適化手法を提案する。
モバイル推論エンジンであるTransformer-LiteはQualcommおよびMTKプロセッサと互換性がある。
論文 参考訳(メタデータ) (2024-03-29T08:26:53Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。