論文の概要: Accelerating SLIDE Deep Learning on Modern CPUs: Vectorization,
Quantizations, Memory Optimizations, and More
- arxiv url: http://arxiv.org/abs/2103.10891v1
- Date: Sat, 6 Mar 2021 02:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 00:57:38.443942
- Title: Accelerating SLIDE Deep Learning on Modern CPUs: Vectorization,
Quantizations, Memory Optimizations, and More
- Title(参考訳): 現代のCPUにおけるSLIDEディープラーニングの高速化:ベクトル化、量子化、メモリ最適化など
- Authors: Shabnam Daghaghi, Nicholas Meisburger, Mengnan Zhao, Yong Wu, Sameh
Gobriel, Charlie Tai, Anshumali Shrivastava
- Abstract要約: SLIDEはスパースハッシュテーブルベースのバックプロパゲーションのC++実装である。
SLIDE の計算によって AVX (Advanced Vector Extensions-512) によるベクトル化が可能となることを示す。
我々の実験は、大規模(数百万のパラメータ)のレコメンデーションとNLPモデルに焦点を当てている。
- 参考スコア(独自算出の注目度): 26.748770505062378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning implementations on CPUs (Central Processing Units) are gaining
more traction. Enhanced AI capabilities on commodity x86 architectures are
commercially appealing due to the reuse of existing hardware and virtualization
ease. A notable work in this direction is the SLIDE system. SLIDE is a C++
implementation of a sparse hash table based back-propagation, which was shown
to be significantly faster than GPUs in training hundreds of million parameter
neural models. In this paper, we argue that SLIDE's current implementation is
sub-optimal and does not exploit several opportunities available in modern
CPUs. In particular, we show how SLIDE's computations allow for a unique
possibility of vectorization via AVX (Advanced Vector Extensions)-512.
Furthermore, we highlight opportunities for different kinds of memory
optimization and quantizations. Combining all of them, we obtain up to 7x
speedup in the computations on the same hardware. Our experiments are focused
on large (hundreds of millions of parameters) recommendation and NLP models.
Our work highlights several novel perspectives and opportunities for
implementing randomized algorithms for deep learning on modern CPUs. We provide
the code and benchmark scripts at https://github.com/RUSH-LAB/SLIDE
- Abstract(参考訳): cpu(中央処理ユニット)のディープラーニング実装が勢いを増している。
既存のハードウェアの再利用と仮想化の容易さにより、コモディティx86アーキテクチャ上のAI機能の強化は商業的に魅力的である。
この方向の注目すべき仕事はSLIDEシステムである。
SLIDEはスパースハッシュテーブルベースのバックプロパゲーションのC++実装であり、数億のパラメータニューラルモデルのトレーニングにおいてGPUよりもはるかに高速であることが示されている。
本稿では、SLIDEの現在の実装は準最適であり、現代のCPUで利用可能ないくつかの機会を生かしていないと論じる。
特に,SLIDE の計算によって AVX (Advanced Vector Extensions)-512 によるベクトル化が可能となることを示す。
さらに,様々なメモリ最適化や量子化の機会に注目した。
これらすべてを組み合わせることで、同じハードウェア上の計算の最大7倍のスピードアップが得られる。
我々の実験は、大規模(数百万のパラメータ)のレコメンデーションとNLPモデルに焦点を当てている。
我々の研究は、現代のcpu上でディープラーニングのためのランダム化アルゴリズムを実装するための、いくつかの新しい視点と機会を強調している。
コードとベンチマークスクリプトはhttps://github.com/rush-lab/slideで提供します。
関連論文リスト
- Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - SIP: Autotuning GPU Native Schedules via Stochastic Instruction Perturbation [0.0]
大型言語モデル(LLM)はその出現以来、重要なワークロードとなっている。
また、数十億のパラメータを持ち、大量のデータで訓練されているため、計算コストも高い。
近年、LLMのトレーニングと推論のための専用カーネルが開発されているため、ハードウェアリソースは可能な限り十分に活用されている。
論文 参考訳(メタデータ) (2024-03-25T15:26:50Z) - Comparative Analysis of CPU and GPU Profiling for Deep Learning Models [0.0]
本稿では、Pytorchを用いて深層ニューラルネットワークをトレーニングしながら、CPUとGPUの時間とメモリ割り当てを示す。
単純なネットワークでは、CPUよりもGPUが大幅に改善されることはない。
論文 参考訳(メタデータ) (2023-09-05T18:22:11Z) - Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。
弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。
私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文 参考訳(メタデータ) (2023-07-27T18:31:04Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。