Fugu-MT 論文翻訳(概要): Empowering 1000 tokens/second on-device LLM prefilling with mllm-NPU

論文の概要: Empowering 1000 tokens/second on-device LLM prefilling with mllm-NPU

arxiv url: http://arxiv.org/abs/2407.05858v1
Date: Mon, 8 Jul 2024 12:20:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 16:00:10.776556
Title: Empowering 1000 tokens/second on-device LLM prefilling with mllm-NPU
Title（参考訳）: mllm-NPUを用いた1000トークン/秒オンデバイスLCMプリフィル
Authors: Daliang Xu, Hao Zhang, Liming Yang, Ruiqi Liu, Gang Huang, Mengwei Xu, Xuanzhe Liu,
Abstract要約: mllm-NPUはアルゴリズムシステムの共同設計であり、LLMアーキテクチャと現在のNPU設計の間のいくつかの意味的ギャップに対処している。初めて、mllm-NPUは10億規模のモデルで1000トークン/秒以上のプリフィルを達成する。
参考スコア（独自算出の注目度）: 10.80559106452755
License: http://creativecommons.org/licenses/by/4.0/
Abstract: On-device large language models (LLMs) are catalyzing novel mobile applications such as UI task automation and personalized email auto-reply, without giving away users' private data. However, on-device LLMs still suffer from unacceptably long inference latency, especially the time to first token (prefill stage) due to the need of long context for accurate, personalized content generation, as well as the lack of parallel computing capacity of mobile CPU/GPU. To enable practical on-device LLM, we present mllm-NPU, the first-of-its-kind LLM inference system that efficiently leverages on-device Neural Processing Unit (NPU) offloading. Essentially, mllm-NPU is an algorithm-system co-design that tackles a few semantic gaps between the LLM architecture and contemporary NPU design. Specifically, it re-constructs the prompt and model in three levels: (1) At prompt level, it divides variable-length prompts into multiple fixed-sized chunks while maintaining data dependencies; (2) At tensor level, it identifies and extracts significant outliers to run on the CPU/GPU in parallel with minimal overhead; (3) At block level, it schedules Transformer blocks in an out-of-order manner to the CPU/GPU and NPU based on their hardware affinity and sensitivity to accuracy. Compared to competitive baselines, mllm-NPU achieves 22.4x faster prefill speed and 30.7x energy savings on average, and up to 32.8x speedup in an end-to-end real-world application. For the first time, mllm-NPU achieves more than 1,000 tokens/sec prefilling for a billion-sized model (Qwen1.5-1.8B), paving the way towards practical on-device LLM.
Abstract（参考訳）: デバイス上での大規模言語モデル(LLM)は、UIタスクの自動化やパーソナライズされたEメールの自動返信など、ユーザのプライベートデータを放棄することなく、新しいモバイルアプリケーションを実現している。しかし、デバイス上でのLSMは、正確なパーソナライズされたコンテンツ生成のために長いコンテキストを必要とすることや、モバイルCPU/GPUの並列計算能力の欠如など、許容範囲の長い推論遅延、特に最初のトークン(準備段階)に悩まされている。そこで本研究では,デバイス上でのニューラルネットワークユニット(NPU)のオフロードを効率よく活用する,最初期のLCM推論システムであるmllm-NPUを提案する。基本的に、mllm-NPUはアルゴリズムシステムの共同設計であり、LLMアーキテクチャと現代のNPU設計の間のいくつかの意味的ギャップに対処している。具体的には、プロンプトとモデルを3つのレベルに再構成する: (1) プロンプトレベルでは、変数長のプロンプトをデータ依存を維持しながら複数の固定サイズのチャンクに分割する; (2) テンソルレベルでは、最小オーバーヘッドでCPU/GPU上で実行する重要なアウトリーを識別し、抽出する; (3) ブロックレベルでは、ハードウェア親和性と精度に対する感受性に基づいて、トランスフォーマーブロックをCPU/GPUとNPUにアウト・オブ・オーダーでスケジュールする。競合するベースラインと比較して、mllm-NPUは22.4倍高速なプリフィルと30.7倍の省エネを実現し、エンドツーエンドの現実世界アプリケーションでは最大32.8倍のスピードアップを実現している。初めて、mllm-NPUは10億サイズのモデル(Qwen1.5-1.8B)で1000トークン/秒のプリフィルを達成する。

関連論文リスト

Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。 PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文参考訳（メタデータ） (2025-07-09T07:27:18Z)
MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism [26.923312725688735]
Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)をスケールし、性能を向上し、計算の複雑さを減らし、大きな可能性を誇示している。大規模MOEモデルを提供するための効率よく費用効率の良いシステムであるMegaScale-Inferを提案する。
論文参考訳（メタデータ） (2025-04-03T04:20:44Z)
Dovetail: A CPU/GPU Heterogeneous Speculative Decoding for LLM inference [20.68731158617374]
Dovetailは、GPUにドラフトモデルをデプロイしてドラフトトークンを生成し、ターゲットモデルをCPU上で並列検証可能にするアプローチである。 Dovetailは3GBのVRAMを使用してLLaMA2-Chat-7Bで毎秒5.86トークンの推論速度を実現しており、CPUのみの推論よりも約2.77倍改善されている。
論文参考訳（メタデータ） (2024-12-25T15:45:18Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。 POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文参考訳（メタデータ） (2024-10-23T17:06:56Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文参考訳（メタデータ） (2024-07-02T17:59:56Z)
PowerInfer-2: Fast Large Language Model Inference on a Smartphone [4.75185107146461]
スマートフォン上の大規模言語モデル(LLM)は、リアルタイムAIアシストとプライバシ保護、オフライン操作を可能にする。本稿では,メモリ容量を超えるLCMの高速推論を可能にするスマートフォンベースのフレームワークであるPowerInfer-2を紹介する。 PowerInfer-2は、スマートフォン上で47B LLMを提供する最初のシステムであり、11.68トークン/秒を達成した。
論文参考訳（メタデータ） (2024-06-10T14:01:21Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs [15.276687781165608]
大規模言語モデル(LLM)は、インテリジェントアシスタント、テキスト要約、翻訳、携帯電話でのマルチモダリティといったタスクに広く使われている。デバイスGPU上でのLLMの高効率展開を容易にするため,我々は4つの最適化手法を提案する。モバイル推論エンジンであるTransformer-LiteはQualcommおよびMTKプロセッサと互換性がある。
論文参考訳（メタデータ） (2024-03-29T08:26:53Z)
Recurrent Drafter for Fast Speculative Decoding in Large Language Models [18.342742904042673]
本稿では,高度な投機的復号法であるRecurrent Drafterを提案する。大規模言語モデル(LLM)推論の最先端の高速化を実現する。
論文参考訳（メタデータ） (2024-03-14T23:40:56Z)
FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文参考訳（メタデータ） (2024-01-08T17:29:16Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Efficient Multi-stage Inference on Tabular Data [1.6371451481715193]
従来型の知恵は、MLコードをRPC API経由で製品コードによってクエリされるサービスに分離することを好む。推論アルゴリズムを単純化し、それらを製品コードに組み込んでネットワーク通信を減らします。トレーニングと推論の両方にAutoMLによる最適化を適用することで、推論遅延を1.3倍、CPUリソースを30%削減し、アプリケーションフロントエンドとMLバックエンド間のネットワーク通信を約50%削減します。
論文参考訳（メタデータ） (2023-03-21T04:01:55Z)
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。 1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。 HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文参考訳（メタデータ） (2023-03-13T05:19:28Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。