Fugu-MT 論文翻訳(概要): Challenging GPU Dominance: When CPUs Outperform for On-Device LLM Inference

論文の概要: Challenging GPU Dominance: When CPUs Outperform for On-Device LLM Inference

arxiv url: http://arxiv.org/abs/2505.06461v1
Date: Fri, 09 May 2025 23:05:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:48.850646
Title: Challenging GPU Dominance: When CPUs Outperform for On-Device LLM Inference
Title（参考訳）: GPUの優位性に挑戦する - オンデバイスLLM推論におけるCPUのパフォーマンス向上
Authors: Haolin Zhang, Jeff Huang,
Abstract要約: 我々は、CPUのみの構成で毎秒17トークンを実現し、GPUアクセラレーションによって得られた毎秒12.8トークンを超えることを示す。この逆直感的な結果の要因を分析し,GPUメモリ転送オーバーヘッドとCPUスレッド最適化が重要な役割を担っていることを明らかにした。我々の研究結果は、最適化されたCPU推論の未解決の可能性を浮き彫りにして、従来のGPU優先の思考に挑戦する。
参考スコア（独自算出の注目度）: 6.829272097221596
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The common assumption in on-device AI is that GPUs, with their superior parallel processing, always provide the best performance for large language model (LLM) inference. In this work, we challenge this notion by empirically demonstrating that, under certain conditions, CPUs can outperform GPUs for LLM inference on mobile devices. Using a 1-billion-parameter LLM deployed via llama.cpp on the iPhone 15 Pro, we show that a CPU-only configuration (two threads, F16 precision) achieves 17 tokens per second, surpassing the 12.8 tokens per second obtained with GPU acceleration. We analyze the architectural factors driving this counterintuitive result, revealing that GPU memory transfer overhead and CPU thread optimization play a critical role. Furthermore, we explore the impact of thread oversubscription, quantization strategies, and hardware constraints, providing new insights into efficient on-device AI execution. Our findings challenge conventional GPU-first thinking, highlighting the untapped potential of optimized CPU inference and paving the way for smarter deployment strategies in mobile AI. However, fully explaining the observed CPU advantage remains difficult due to limited access to low-level profiling tools on iOS.
Abstract（参考訳）: オンデバイスAIの一般的な前提は、GPUは、優れた並列処理を持つため、大言語モデル(LLM)の推論において、常に最高のパフォーマンスを提供するというものである。本研究では、ある条件下では、CPUがモバイルデバイス上でのLLM推論においてGPUより優れていることを実証的に示すことにより、この概念に挑戦する。 iPhone 15 Pro の llama.cpp 経由で展開された 1-billion-parameter LLM を用いて,CPU のみの構成 (2スレッド,F16 精度) が,GPU アクセラレーションによって得られた毎秒 12.8 トークンを超え,毎秒 17 トークンを達成することを示す。本稿では,GPUメモリ転送オーバーヘッドとCPUスレッド最適化が重要な役割を担っていることを明らかにする。さらに、スレッドオーバーサブスクライブ、量子化戦略、ハードウェア制約の影響についても検討し、デバイス上での効率的なAI実行に関する新たな洞察を提供する。我々の発見は従来のGPU優先の思考に挑戦し、最適化されたCPU推論の未解決の可能性を強調し、モバイルAIにおけるよりスマートなデプロイメント戦略への道を開いた。しかし、iOS上の低レベルのプロファイリングツールへのアクセスが制限されているため、観察されたCPUの利点を十分に説明することは依然として困難である。

関連論文リスト

CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-10T10:51:03Z)
DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference [14.676716521856813]
Mixture-of-Experts (MoE)モデルは、メモリ制限されたデバイスにおいて、重大なデプロイメント上の課題に直面している。並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンである presentP を提案する。 Pは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロード技術は1.35倍、精度は維持する。
論文参考訳（メタデータ） (2024-12-16T07:59:21Z)
ThunderKittens: Simple, Fast, and Adorable AI Kernels [43.32681787348603]
We present ThunderKittens (TK), a framework for write performanceant AI kernels while rest to use and maintain。我々は、さまざまなAI操作に対して、以前のカーネルと一致するか、より優れているカーネルを提供することで、TKの価値を示す。
論文参考訳（メタデータ） (2024-10-27T10:07:16Z)
Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文参考訳（メタデータ） (2024-09-23T08:27:27Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。 1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。 HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文参考訳（メタデータ） (2023-03-13T05:19:28Z)
MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。 MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2022-04-27T14:00:48Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
Enabling On-Device Smartphone GPU based Training: Lessons Learned [10.420617367363047]
モバイルGPUを用いたスマートフォン上でのオンデバイストレーニングの実現可能性について,初期分析を行った。このボトルネックを解決するため、我々はOpenCLバックエンドのカーネルを最適化し、CPUよりも2倍の改善(40-70 GFLOP)を示した。データムーブメントは、低帯域幅のため、トレーニング時間の約91%を要します。
論文参考訳（メタデータ） (2022-02-21T10:29:16Z)
MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文参考訳（メタデータ） (2021-11-30T03:52:15Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。