論文の概要: Efficient Mixture-of-Experts LLM Inference with Apple Silicon NPUs
- arxiv url: http://arxiv.org/abs/2604.18788v1
- Date: Mon, 20 Apr 2026 19:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.459333
- Title: Efficient Mixture-of-Experts LLM Inference with Apple Silicon NPUs
- Title(参考訳): Apple Silicon NPUを用いたLLM推論の効率化
- Authors: Afsara Benazir, Felix Xiaozhu Lin,
- Abstract要約: 本稿では,Apple Silicon上でのMoE実行を高速化するランタイム推論エンジンであるNPUMoEを提案する。
NPUMoEはベースラインを一貫して上回り、レイテンシを1.32x-5.55xに、エネルギー効率を1.81x-7.37xに、CPUサイクルを1.78x-5.54xに減らした。
- 参考スコア(独自算出の注目度): 5.431496585727341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Apple Neural Engine (ANE) is a dedicated neural processing unit (NPU) present in every Apple Silicon chip. Mixture-of-Experts (MoE) LLMs improve inference efficiency via sparse activation but are challenging for NPUs in three ways: expert routing is unpredictable and introduces dynamic tensor shapes that conflict with the shape-specific constraints of NPUs; several irregular operators, e.g., top-k, scatter/gather, etc., are not NPU-friendly; and launching many small expert kernels incurs substantial dispatch and synchronization overhead. NPUs are designed to offload AI compute from CPU and GPU; our goal is to enable such offloading for MoE inference, particularly during prefill, where long-context workloads consume substantial system resources. This paper presents NPUMoE, a runtime inference engine that accelerates MoE execution on Apple Silicon by offloading dense, static computation to NPU, while preserving a CPU/GPU fallback path for dynamic operations. NPUMoE uses offline calibration to estimate expert capacity and popularity that drives three key techniques: (1) Static tiers for expert capacity to address dynamic expert routing (2) Grouped expert execution to mitigate NPU concurrency limits (3) Load-aware expert compute graph residency to reduce CPU-NPU synchronization overhead. Experiments on Apple M-series devices using three representative MoE LLMs and four long-context workloads show that NPUMoE consistently outperforms baselines, reducing latency by 1.32x-5.55x, improving energy efficiency by 1.81x-7.37x, and reducing CPU-cycle usage by 1.78x-5.54x through effective NPU offloading.
- Abstract(参考訳): Apple Neural Engine(ANE)は、すべてのApple Siliconチップに存在する専用ニューラルネットワークユニット(NPU)である。
Mixture-of-Experts (MoE) LLMはスパースアクティベーションによって推論効率を向上させるが、NPUには3つの方法がある: エキスパートルーティングは予測不可能で、NPUの形状固有の制約と矛盾する動的テンソル形状を導入する。
NPUは、CPUとGPUからAI計算をオフロードするように設計されています。
本稿では,NPUに高密度で静的な計算をオフロードし,CPU/GPUのフォールバックパスを動的操作に保存することにより,Apple Silicon上でのMoE実行を高速化するランタイム推論エンジンであるNPUMoEを提案する。
1) 動的エキスパートルーティングに対処するためのエキスパートキャパシティの静的ティア (2) NPU並列性制限を緩和するためのグループ化されたエキスパート実行 (3) CPU-NPU同期オーバーヘッドを削減するために、ロードアウェアの専門家計算グラフ常駐性。
3つの代表的MoE LLMと4つの長いコンテキストワークロードを用いたApple Mシリーズデバイスの実験では、NPUMoEはベースラインを一貫して上回り、レイテンシを1.32x-5.55x、エネルギー効率を1.81x-7.37x、CPUサイクルを1.78x-5.54xに改善した。
関連論文リスト
- ENEC: A Lossless AI Model Compression Method Enabling Fast Inference on Ascend NPUs [13.980477697764014]
ENECはAIモデルの重み用に特別にカスタマイズされ、Ascend Neural Processing Units向けに最適化された新しい圧縮方法である。
主要なGPUソリューションと比較すると、ENECはDietGPUより3.43倍、圧縮比はnvCOMPより1.12倍高い。
ENECはエンドツーエンドの推論性能を大幅に改善し、最大6.3倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2026-03-28T16:11:56Z) - Evaluating the Energy Efficiency of NPU-Accelerated Machine Learning Inference on Embedded Microcontrollers [0.0]
本稿では、ニューラルネットワークユニット(NPU)が機械学習(ML)の実行とマイクロコントローラ(MCU)に与える影響を評価する。
推論をNPUにオフロードすると、かなりの効率が向上する。
中程度のネットワークから大規模なネットワークでは、レイテンシの改善は7倍から125倍を超え、参照毎のネットエネルギーは143倍まで削減された。
論文 参考訳(メタデータ) (2025-09-22T08:52:54Z) - eIQ Neutron: Redefining Edge-AI Inference with Integrated NPU and Compiler Innovations [4.776283807742058]
eIQ中性子効率NPUは商用フラッグシップMPUに統合される。
我々のソリューションは、標準AIベンチマークにおけるTOPSとメモリリソースの同等で平均1.8倍(4倍ピーク)のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-09-17T19:45:51Z) - Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing [67.98609858326951]
Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
論文 参考訳(メタデータ) (2025-07-08T09:50:57Z) - Fast On-device LLM Inference with NPUs [10.80559106452755]
我々は、オンデバイスニューラルプロセッシングユニット(NPU)オフロードを利用した最初のLCM推論システムであるllm.npuについて述べる。
llm.npuは3つのレベルでプロンプトとモデルを再構築することで、NPUのオフロード効率を向上させる。
初めて、llm.npuは10億規模のモデルで1000トークン/秒以上のプリフィルを達成した。
論文 参考訳(メタデータ) (2024-07-08T12:20:45Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。