Fugu-MT 論文翻訳(概要): Enabling On-Device Smartphone GPU based Training: Lessons Learned

論文の概要: Enabling On-Device Smartphone GPU based Training: Lessons Learned

arxiv url: http://arxiv.org/abs/2202.10100v1
Date: Mon, 21 Feb 2022 10:29:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-24 11:22:52.130966
Title: Enabling On-Device Smartphone GPU based Training: Lessons Learned
Title（参考訳）: デバイス上でのGPUベースのトレーニングを実践する
Authors: Anish Das and Young D. Kwon and Jagmohan Chauhan and Cecilia Mascolo
Abstract要約: モバイルGPUを用いたスマートフォン上でのオンデバイストレーニングの実現可能性について,初期分析を行った。このボトルネックを解決するため、我々はOpenCLバックエンドのカーネルを最適化し、CPUよりも2倍の改善(40-70 GFLOP)を示した。データムーブメントは、低帯域幅のため、トレーニング時間の約91%を要します。
参考スコア（独自算出の注目度）: 10.420617367363047
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep Learning (DL) has shown impressive performance in many mobile applications. Most existing works have focused on reducing the computational and resource overheads of running Deep Neural Networks (DNN) inference on resource-constrained mobile devices. However, the other aspect of DNN operations, i.e. training (forward and backward passes) on smartphone GPUs, has received little attention thus far. To this end, we conduct an initial analysis to examine the feasibility of on-device training on smartphones using mobile GPUs. We first employ the open-source mobile DL framework (MNN) and its OpenCL backend for running compute kernels on GPUs. Next, we observed that training on CPUs is much faster than on GPUs and identified two possible bottlenecks related to this observation: (i) computation and (ii) memory bottlenecks. To solve the computation bottleneck, we optimize the OpenCL backend's kernels, showing 2x improvements (40-70 GFLOPs) over CPUs (15-30 GFLOPs) on the Snapdragon 8 series processors. However, we find that the full DNN training is still much slower on GPUs than on CPUs, indicating that memory bottleneck plays a significant role in the lower performance of GPU over CPU. The data movement takes almost 91% of training time due to the low bandwidth. Lastly, based on the findings and failures during our investigation, we present limitations and practical guidelines for future directions.
Abstract（参考訳）: ディープラーニング(DL)は多くのモバイルアプリケーションで素晴らしいパフォーマンスを示している。既存の研究の多くは、リソースに制約のあるモバイルデバイス上でDeep Neural Networks(DNN)推論を実行する際の計算オーバーヘッドとリソースオーバーヘッドの削減に重点を置いている。しかし、DNN操作の他の側面、すなわちスマートフォンGPUでのトレーニング(前方および後方パス)は、今のところほとんど注目されていない。そこで本研究では,モバイルgpuを用いたスマートフォンのオンデバイストレーニングの実現可能性を検討するため,初期分析を行った。まず、オープンソースのモバイルDLフレームワーク(MNN)と、GPU上で計算カーネルを実行するためのOpenCLバックエンドを使用します。次に、CPUでのトレーニングがGPUよりもはるかに高速であることを観察し、この観察に関連する2つのボトルネックを特定した。 (i)計算と計算 (ii)メモリボトルネック。計算ボトルネックを解決するため,我々はOpenCLバックエンドのカーネルを最適化し,Snapdragon 8シリーズプロセッサのCPU(15-30 GFLOP)に対して2倍の改善(40-70 GFLOP)を示した。しかし、DNNのフルトレーニングは、CPUよりもGPUの方がずっと遅く、CPUよりもGPUの低パフォーマンスにおいてメモリボトルネックが重要な役割を果たすことを示している。データ移動は、低帯域幅のため、トレーニング時間の約91%を要する。最後に,調査中の知見と失敗を踏まえて,今後の方向性に関する限界と実践指針を提案する。

関連論文リスト

Challenging GPU Dominance: When CPUs Outperform for On-Device LLM Inference [6.829272097221596]
我々は、CPUのみの構成で毎秒17トークンを実現し、GPUアクセラレーションによって得られた毎秒12.8トークンを超えることを示す。この逆直感的な結果の要因を分析し,GPUメモリ転送オーバーヘッドとCPUスレッド最適化が重要な役割を担っていることを明らかにした。我々の研究結果は、最適化されたCPU推論の未解決の可能性を浮き彫りにして、従来のGPU優先の思考に挑戦する。
論文参考訳（メタデータ） (2025-05-09T23:05:53Z)
Less Memory Means smaller GPUs: Backpropagation with Compressed Activations [1.7065506903618906]
深層ニューラルネットワーク(DNN)の規模は、計算リソースの要件が等しく急速に増大している。最近の多くのアーキテクチャ、特にLarge Language Modelsは、何千ものアクセラレーターを持つスーパーコンピュータを使って訓練されなければならない。このアプローチにより、より長いトレーニングスケジュールのコストで、ピークメモリ使用量を29%削減することが可能になります。
論文参考訳（メタデータ） (2024-09-18T11:57:05Z)
Comparative Analysis of CPU and GPU Profiling for Deep Learning Models [0.0]
本稿では、Pytorchを用いて深層ニューラルネットワークをトレーニングしながら、CPUとGPUの時間とメモリ割り当てを示す。単純なネットワークでは、CPUよりもGPUが大幅に改善されることはない。
論文参考訳（メタデータ） (2023-09-05T18:22:11Z)
Deep Learning Models on CPUs: A Methodology for Efficient Training [1.7150798380270715]
本稿では,CPUを用いた深層学習モデルの学習にいくつかの貢献をする。これは、Intel CPU上でディープラーニングモデルのトレーニングを最適化する手法と、ProfileDNNと呼ばれるツールキットを提供する。
論文参考訳（メタデータ） (2022-06-20T22:42:14Z)
Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文参考訳（メタデータ） (2022-05-23T12:35:18Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文参考訳（メタデータ） (2021-04-16T09:54:30Z)
DistGNN: Scalable Distributed Training for Large-Scale Graph Neural Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。 4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文参考訳（メタデータ） (2021-04-14T08:46:35Z)
L2PF -- Learning to Prune Faster [57.32153461504626]
本稿では,cnnの冗長フィルタを離散的に学習するマルチタスクのtry-and-learn法と,レイヤの微調整期間の連続的動作を提案する。 ResNet20では、最小精度で圧縮比3.84xを達成しました。最先端プルーニング法と比較して,GPU時間を1.71倍に短縮した。
論文参考訳（メタデータ） (2021-01-07T18:13:37Z)
At-Scale Sparse Deep Neural Network Inference with Efficient GPU Implementation [24.824295164938604]
本稿では,Sparse Deep Neural Network Challenge 2020の推論モデルに対するGPU性能の最適化とスケーリング結果について述べる。スパースディープニューラルネットワーク(SpDNN)は、大規模なニューラルネットワークのメモリフットプリントを制御することを約束している。本研究では,ReLU関数と融合したスパース行列乗算カーネルを提案する。
論文参考訳（メタデータ） (2020-07-28T12:09:43Z)
RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。 3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文参考訳（メタデータ） (2020-07-20T02:05:32Z)
Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文参考訳（メタデータ） (2020-06-26T21:03:45Z)
TFApprox: Towards a Fast Emulation of DNN Approximate Hardware Accelerators on GPU [0.4817429789586127]
近似演算回路を導入することにより、ディープニューラルネットワーク(DNN)のハードウェアアクセラレータのエネルギー効率を向上させることができる。 DNNアクセラレータのソフトウェアエミュレーションは通常、CPUまたはGPU上で実行される。このエミュレーションは通常、ソフトウェアDNN実装のエミュレーションよりも2～3桁遅い。
論文参考訳（メタデータ） (2020-02-21T08:22:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。