論文の概要: Challenging GPU Dominance: When CPUs Outperform for On-Device LLM Inference
- arxiv url: http://arxiv.org/abs/2505.06461v1
- Date: Fri, 09 May 2025 23:05:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.850646
- Title: Challenging GPU Dominance: When CPUs Outperform for On-Device LLM Inference
- Title(参考訳): GPUの優位性に挑戦する - オンデバイスLLM推論におけるCPUのパフォーマンス向上
- Authors: Haolin Zhang, Jeff Huang,
- Abstract要約: 我々は、CPUのみの構成で毎秒17トークンを実現し、GPUアクセラレーションによって得られた毎秒12.8トークンを超えることを示す。
この逆直感的な結果の要因を分析し,GPUメモリ転送オーバーヘッドとCPUスレッド最適化が重要な役割を担っていることを明らかにした。
我々の研究結果は、最適化されたCPU推論の未解決の可能性を浮き彫りにして、従来のGPU優先の思考に挑戦する。
- 参考スコア(独自算出の注目度): 6.829272097221596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The common assumption in on-device AI is that GPUs, with their superior parallel processing, always provide the best performance for large language model (LLM) inference. In this work, we challenge this notion by empirically demonstrating that, under certain conditions, CPUs can outperform GPUs for LLM inference on mobile devices. Using a 1-billion-parameter LLM deployed via llama.cpp on the iPhone 15 Pro, we show that a CPU-only configuration (two threads, F16 precision) achieves 17 tokens per second, surpassing the 12.8 tokens per second obtained with GPU acceleration. We analyze the architectural factors driving this counterintuitive result, revealing that GPU memory transfer overhead and CPU thread optimization play a critical role. Furthermore, we explore the impact of thread oversubscription, quantization strategies, and hardware constraints, providing new insights into efficient on-device AI execution. Our findings challenge conventional GPU-first thinking, highlighting the untapped potential of optimized CPU inference and paving the way for smarter deployment strategies in mobile AI. However, fully explaining the observed CPU advantage remains difficult due to limited access to low-level profiling tools on iOS.
- Abstract(参考訳): オンデバイスAIの一般的な前提は、GPUは、優れた並列処理を持つため、大言語モデル(LLM)の推論において、常に最高のパフォーマンスを提供するというものである。
本研究では、ある条件下では、CPUがモバイルデバイス上でのLLM推論においてGPUより優れていることを実証的に示すことにより、この概念に挑戦する。
iPhone 15 Pro の llama.cpp 経由で展開された 1-billion-parameter LLM を用いて,CPU のみの構成 (2スレッド,F16 精度) が,GPU アクセラレーションによって得られた毎秒 12.8 トークンを超え,毎秒 17 トークンを達成することを示す。
本稿では,GPUメモリ転送オーバーヘッドとCPUスレッド最適化が重要な役割を担っていることを明らかにする。
さらに、スレッドオーバーサブスクライブ、量子化戦略、ハードウェア制約の影響についても検討し、デバイス上での効率的なAI実行に関する新たな洞察を提供する。
我々の発見は従来のGPU優先の思考に挑戦し、最適化されたCPU推論の未解決の可能性を強調し、モバイルAIにおけるよりスマートなデプロイメント戦略への道を開いた。
しかし、iOS上の低レベルのプロファイリングツールへのアクセスが制限されているため、観察されたCPUの利点を十分に説明することは依然として困難である。
関連論文リスト
- DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference [14.676716521856813]
Mixture-of-Experts (MoE)モデルは、メモリ制限されたデバイスにおいて、重大なデプロイメント上の課題に直面している。
並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンである presentP を提案する。
Pは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロード技術は1.35倍、精度は維持する。
論文 参考訳(メタデータ) (2024-12-16T07:59:21Z) - ThunderKittens: Simple, Fast, and Adorable AI Kernels [43.32681787348603]
We present ThunderKittens (TK), a framework for write performanceant AI kernels while rest to use and maintain。
我々は、さまざまなAI操作に対して、以前のカーネルと一致するか、より優れているカーネルを提供することで、TKの価値を示す。
論文 参考訳(メタデータ) (2024-10-27T10:07:16Z) - Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Enabling On-Device Smartphone GPU based Training: Lessons Learned [10.420617367363047]
モバイルGPUを用いたスマートフォン上でのオンデバイストレーニングの実現可能性について,初期分析を行った。
このボトルネックを解決するため、我々はOpenCLバックエンドのカーネルを最適化し、CPUよりも2倍の改善(40-70 GFLOP)を示した。
データムーブメントは、低帯域幅のため、トレーニング時間の約91%を要します。
論文 参考訳(メタデータ) (2022-02-21T10:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。