論文の概要: Accelerating Mobile Inference through Fine-Grained CPU-GPU Co-Execution
- arxiv url: http://arxiv.org/abs/2510.21081v1
- Date: Fri, 24 Oct 2025 01:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.372286
- Title: Accelerating Mobile Inference through Fine-Grained CPU-GPU Co-Execution
- Title(参考訳): 微細粒度CPU-GPU同時実行によるモバイル推論の高速化
- Authors: Zhuojin Li, Marco Paolieri, Leana Golubchik,
- Abstract要約: 本稿では,OpenCLの微細粒度共有仮想メモリ(SVM)と機械学習モデルに基づいて,実行時間を正確に予測する軽量同期機構を提案する。
4つのモバイルプラットフォーム上での総合的な評価から,線形層で最大1.89倍,畳み込み層で最大1.75倍の高速化を実現したCPU-GPU共同実行戦略を迅速に選択できることが示唆された。
- 参考スコア(独自算出の注目度): 1.3356260369011272
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deploying deep neural networks on mobile devices is increasingly important but remains challenging due to limited computing resources. On the other hand, their unified memory architecture and narrower gap between CPU and GPU performance provide an opportunity to reduce inference latency by assigning tasks to both CPU and GPU. The main obstacles for such collaborative execution are the significant synchronization overhead required to combine partial results, and the difficulty of predicting execution times of tasks assigned to CPU and GPU (due to the dynamic selection of implementations and parallelism level). To overcome these obstacles, we propose both a lightweight synchronization mechanism based on OpenCL fine-grained shared virtual memory (SVM) and machine learning models to accurately predict execution times. Notably, these models capture the performance characteristics of GPU kernels and account for their dispatch times. A comprehensive evaluation on four mobile platforms shows that our approach can quickly select CPU-GPU co-execution strategies achieving up to 1.89x speedup for linear layers and 1.75x speedup for convolutional layers (close to the achievable maximum values of 2.01x and 1.87x, respectively, found by exhaustive grid search on a Pixel~5 smartphone).
- Abstract(参考訳): モバイルデバイスにディープニューラルネットワークをデプロイすることはますます重要になっているが、コンピューティングリソースが限られているため、依然として困難である。
一方、メモリアーキテクチャの統一化とCPUとGPUパフォーマンスのギャップの狭さは、CPUとGPUの両方にタスクを割り当てることで、推論レイテンシを低減する機会を提供する。
このような共同実行の主な障害は、部分的な結果の組み合わせに必要な重要な同期オーバーヘッドと、CPUとGPUに割り当てられたタスクの実行時間を予測するのが困難である(実装と並列性レベルが動的に選択されているため)。
これらの障害を克服するために,OpenCLの細粒度共有仮想メモリ(SVM)に基づく軽量同期機構と,実行時間を正確に予測する機械学習モデルを提案する。
特に、これらのモデルはGPUカーネルのパフォーマンス特性を捉え、ディスパッチ時間を考慮に入れている。
4つのモバイルプラットフォーム上での総合的な評価から,線形層で最大1.89倍,畳み込み層で最大1.75倍の高速化を実現した CPU-GPU 共同実行戦略が,Pixel~5 スマートフォンで網羅的グリッドサーチによって,それぞれ2.01倍と 1.87倍の達成可能な最大値に近づいた。
関連論文リスト
- Challenging GPU Dominance: When CPUs Outperform for On-Device LLM Inference [6.829272097221596]
我々は、CPUのみの構成で毎秒17トークンを実現し、GPUアクセラレーションによって得られた毎秒12.8トークンを超えることを示す。
この逆直感的な結果の要因を分析し,GPUメモリ転送オーバーヘッドとCPUスレッド最適化が重要な役割を担っていることを明らかにした。
我々の研究結果は、最適化されたCPU推論の未解決の可能性を浮き彫りにして、従来のGPU優先の思考に挑戦する。
論文 参考訳(メタデータ) (2025-05-09T23:05:53Z) - DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference [14.676716521856813]
Mixture-of-Experts (MoE)モデルは、メモリ制限されたデバイスにおいて、重大なデプロイメント上の課題に直面している。
並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンである presentP を提案する。
Pは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロード技術は1.35倍、精度は維持する。
論文 参考訳(メタデータ) (2024-12-16T07:59:21Z) - Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。