Fugu-MT 論文翻訳(概要): Edge Deployment of Small Language Models, a comprehensive comparison of CPU, GPU and NPU backends

論文の概要: Edge Deployment of Small Language Models, a comprehensive comparison of CPU, GPU and NPU backends

arxiv url: http://arxiv.org/abs/2511.22334v1
Date: Thu, 27 Nov 2025 11:11:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-01 19:47:55.53158
Title: Edge Deployment of Small Language Models, a comprehensive comparison of CPU, GPU and NPU backends
Title（参考訳）: 小言語モデルのエッジデプロイ - CPU, GPU, NPUバックエンドの包括的な比較
Authors: Pablo Prieto, Pablo Abad,
Abstract要約: エッジデバイスは通常、処理能力、メモリ、エネルギー消費の厳しい制約の下で動作します。 Small Language Models (SLM)は、リソース制約のある環境にAI推論をもたらす軽量な代替手段を提供する。各プラットフォームで利用可能な商用ソリューションの最大性能と処理効率とエネルギー効率を解析する。
参考スコア（独自算出の注目度）: 0.2578242050187029
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Edge computing processes data where it is generated, enabling faster decisions, lower bandwidth usage, and improved privacy. However, edge devices typically operate under strict constraints on processing power, memory, and energy consumption, making them unsuitable for large language models (LLMs). Fortunately, Small Language Models (SLMs) offer lightweight alternatives that bring AI inference to resource-constrained environments by significantly reducing computational cost while remaining suitable for specialization and customization. In this scenario, selecting the hardware platform that best balances performance and efficiency for SLM inference is challenging due to strict resource limitations. To address this issue, this study evaluates the inference performance and energy efficiency of commercial CPUs (Intel and ARM), GPUs (NVIDIA), and NPUs (RaiderChip) for running SLMs. GPUs, the usual platform of choice, are compared against commercial NPUs and recent multi-core CPUs. While NPUs leverage custom hardware designs optimized for computation, modern CPUs increasingly incorporate dedicated features targeting language-model workloads. Using a common execution framework and a suite of state-of-the-art SLMs, we analyze both maximum achievable performance and processing and energy efficiency across commercial solutions available for each platform. The results indicate that specialized backends outperform general-purpose CPUs, with NPUs achieving the highest performance by a wide margin. Bandwidth normalization proves essential for fair cross-architecture comparisons. Although low-power ARM processors deliver competitive results when energy usage is considered, metrics that combine performance and power (such as EDP) again highlight NPUs as the dominant architecture. These findings show that designs optimized for both efficiency and performance offer a clear advantage for edge workloads.
Abstract（参考訳）: エッジコンピューティングは、生成したデータを処理し、より高速な決定を可能にし、帯域使用量を削減し、プライバシを改善します。しかし、エッジデバイスは通常、処理能力、メモリ、エネルギー消費の厳しい制約の下で動作し、大きな言語モデル(LLM)には適さない。幸いなことに、Small Language Models (SLM) は、AI推論をリソース制約のある環境にもたらす軽量な代替手段を提供する。このシナリオでは、厳格なリソース制限のため、SLM推論の性能と効率の最良のバランスをとるハードウェアプラットフォームを選択することは困難である。そこで本研究では、商用CPU(IntelとARM)、GPU(NVIDIA)、NPU(RaiderChip)の予測性能とエネルギー効率を評価する。一般的なプラットフォームであるGPUは、商用NPUや最近のマルチコアCPUと比較される。 NPUは計算に最適化されたカスタムハードウェア設計を活用するが、現代のCPUは言語モデルワークロードをターゲットとした専用機能をますます取り入れている。共通実行フレームワークと最先端のSLMを用いて、各プラットフォームで利用可能な商用ソリューションの最大性能と処理効率とエネルギー効率の両方を解析する。以上の結果から,NPUは汎用CPUよりも高い性能を示した。バンド幅正規化は、公正なクロスアーキテクチャ比較に不可欠である。低消費電力のARMプロセッサはエネルギー使用を考慮した場合、競争力のある結果をもたらすが、性能とパワー(EDPなど)を組み合わせたメトリクスは、NPUを支配的なアーキテクチャとして強調する。これらの結果は、効率とパフォーマンスの両方に最適化された設計が、エッジワークロードに明確な優位性をもたらすことを示している。

関連論文リスト

xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。 xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。 xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文参考訳（メタデータ） (2025-10-16T13:53:47Z)
eIQ Neutron: Redefining Edge-AI Inference with Integrated NPU and Compiler Innovations [4.776283807742058]
eIQ中性子効率NPUは商用フラッグシップMPUに統合される。我々のソリューションは、標準AIベンチマークにおけるTOPSとメモリリソースの同等で平均1.8倍(4倍ピーク)のスピードアップを達成する。
論文参考訳（メタデータ） (2025-09-17T19:45:51Z)
MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints [7.287566040274871]
MoE-Lensは、リソース制約のある環境に対する総合的なパフォーマンスモデリングによって設計された推論システムである。システム実行メカニズムをキャプチャして、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測します。多様なMoEモデルとデータセットに基づいて評価され、MoE-Lensは最先端のソリューションを平均で4.6倍(最大25.5倍)上回る。
論文参考訳（メタデータ） (2025-04-12T21:26:56Z)
Optimizing Multi-DNN Inference on Mobile Devices through Heterogeneous Processor Co-Execution [39.033040759452504]
Deep Neural Networks(DNN)は、さまざまな産業に展開され、モバイルデバイスのサポートの需要が高まっている。既存のモバイル推論フレームワークは、ハードウェアの使用を制限し、最適性能とエネルギー効率を引き起こすため、モデルごとにひとつのプロセッサに依存していることが多い。本稿では,モバイルヘテロジニアスプロセッサ上でのマルチDNN推論を最適化するためのAdvanced Multi-DNN Model Scheduling (ADMS) 戦略を提案する。
論文参考訳（メタデータ） (2025-03-27T03:03:09Z)
Real-Time Semantic Segmentation of Aerial Images Using an Embedded U-Net: A Comparison of CPU, GPU, and FPGA Workflows [0.0]
本研究では,航空画像のリアルタイムセマンティックセグメンテーションに最適化された軽量なU-Netモデルを提案する。実世界のデータセット上でのU-Netの精度を維持しながら、モデルのパラメータと乗算(MAC)操作を16。
論文参考訳（メタデータ） (2025-03-07T08:33:28Z)
Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文参考訳（メタデータ） (2024-09-23T08:27:27Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文参考訳（メタデータ） (2022-05-09T22:48:39Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。