論文の概要: When NPUs Are Not Always Faster: A Stage-Level Analysis of Mobile LLM Inference
- arxiv url: http://arxiv.org/abs/2605.27435v1
- Date: Fri, 22 May 2026 10:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-29 01:06:09.708486
- Title: When NPUs Are Not Always Faster: A Stage-Level Analysis of Mobile LLM Inference
- Title(参考訳): NPUが常に高速でない場合:モバイルLLM推論のステージレベル解析
- Authors: Pu Li, Jiawen Qi, Qinyu Chen,
- Abstract要約: モバイルデバイス上の大規模言語モデル(LLM)は、ますます不均一な実行に依存している。
演算子およびパイプラインレベルでNPUの有効性を系統的に評価した先行研究はない。
CPU-NPUヘテロジニアスシステム上での移動LEM推論のステージ認識とマルチレベルベンチマークについて述べる。
- 参考スコア(独自算出の注目度): 8.014238682359938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying large language models (LLMs) on mobile devices increasingly relies on heterogeneous execution, yet no prior study has systematically characterized NPU effectiveness at the operator and pipeline level. We present the first stage-aware, multi-level benchmarking study of mobile LLM inference on a CPU-NPU heterogeneous SoC. We introduce an OPMASK-based controlled pipeline decomposition methodology that isolates communication, quantization, and computation overheads within the NPU execution path. Our results reveal a counter-intuitive stage-level performance reversal: CPUs outperform NPUs in the compute-intensive Prefill stage (up to 1.6x), while NPUs provide only limited acceleration in the memory-bound Decode stage (1.05-1.2x). We further show that scheduling overhead and cross-backend fallback reduce the practical benefits of NPU offloading. For the energy trend, increasing NPU offloading leads to higher energy consumption (up to 51%). Based on these findings, we derive design guidelines for NPU architects targeting on-device LLM inference.
- Abstract(参考訳): モバイル機器に大規模言語モデル(LLM)をデプロイすることは、ますます不均一な実行に依存している。
本稿では,CPU-NPUヘテロジニアスSoC上での移動LEM推論のステージ認識,マルチレベルベンチマークについて述べる。
我々は,NPU実行経路内の通信,量子化,計算オーバーヘッドを分離するOPMASKに基づく制御パイプライン分解手法を提案する。
CPUは計算集約型プリフィルステージ(1.6倍)でNPUを上回り、NPUはメモリバウンドなデコードステージ(1.05-1.2倍)でしかアクセラレーションしない。
さらに、スケジューリングオーバーヘッドとクロスバックフォールバックにより、NPUオフロードの実用的メリットが低減されることを示す。
エネルギートレンドでは、NPUのオフロードの増加はエネルギー消費の増大(最大51%)につながる。
これらの知見に基づき、デバイス上でのLCM推論をターゲットとしたNPUアーキテクトのための設計ガイドラインを導出する。
関連論文リスト
- Efficient Mixture-of-Experts LLM Inference with Apple Silicon NPUs [5.431496585727341]
本稿では,Apple Silicon上でのMoE実行を高速化するランタイム推論エンジンであるNPUMoEを提案する。
NPUMoEはベースラインを一貫して上回り、レイテンシを1.32x-5.55xに、エネルギー効率を1.81x-7.37xに、CPUサイクルを1.78x-5.54xに減らした。
論文 参考訳(メタデータ) (2026-04-20T19:52:56Z) - Scaling LLM Test-Time Compute with Mobile NPU on Smartphones [18.50846535848905]
本稿では,移動型ニューラルプロセッシングユニット (NPU) が計算資源を過小評価していることを示す。
そこで本研究では,モバイルNPUに並列テスト時間スケーリング手法を適用し,小型LLMの性能を向上させることを提案する。
混合精度GEMMは19.0、ソフトマックスは2.2である。
論文 参考訳(メタデータ) (2025-09-27T14:17:46Z) - Evaluating the Energy Efficiency of NPU-Accelerated Machine Learning Inference on Embedded Microcontrollers [0.0]
本稿では、ニューラルネットワークユニット(NPU)が機械学習(ML)の実行とマイクロコントローラ(MCU)に与える影響を評価する。
推論をNPUにオフロードすると、かなりの効率が向上する。
中程度のネットワークから大規模なネットワークでは、レイテンシの改善は7倍から125倍を超え、参照毎のネットエネルギーは143倍まで削減された。
論文 参考訳(メタデータ) (2025-09-22T08:52:54Z) - eIQ Neutron: Redefining Edge-AI Inference with Integrated NPU and Compiler Innovations [4.776283807742058]
eIQ中性子効率NPUは商用フラッグシップMPUに統合される。
我々のソリューションは、標準AIベンチマークにおけるTOPSとメモリリソースの同等で平均1.8倍(4倍ピーク)のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-09-17T19:45:51Z) - Pushing the Envelope of LLM Inference on AI-PC [45.081663877447816]
ウルトラロービットモデル(1/1.58/2-bit)は、同じモデルサイズを用いて、その完全精度のモデルのパープレキシティとエンドタスクのパフォーマンスとを一致させる。
最先端の推論ランタイム(例えばbitnet)の計算効率は未調査のままである。
まず1ビットと2ビットのマイクロカーネルを設計・実装し,計算効率の最大化を実現した。
我々は、現在のSOTAランタイムビットネットよりも優れた2ビットモデルを用いて、エンドツーエンドの推論結果を示す。
論文 参考訳(メタデータ) (2025-08-08T23:33:38Z) - Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing [67.98609858326951]
Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
論文 参考訳(メタデータ) (2025-07-08T09:50:57Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。