論文の概要: PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine
- arxiv url: http://arxiv.org/abs/2202.12674v1
- Date: Fri, 25 Feb 2022 13:24:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 19:36:49.498148
- Title: PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine
- Title(参考訳): PLSSVM: (multi-)GPGPUアクセラレーション付きLast Squaresサポートベクトルマシン
- Authors: Alexander Van Craen and Marcel Breyer and Dirk Pfl\"uger
- Abstract要約: Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning algorithms must be able to efficiently cope with massive
data sets. Therefore, they have to scale well on any modern system and be able
to exploit the computing power of accelerators independent of their vendor. In
the field of supervised learning, Support Vector Machines (SVMs) are widely
used. However, even modern and optimized implementations such as LIBSVM or
ThunderSVM do not scale well for large non-trivial dense data sets on
cutting-edge hardware: Most SVM implementations are based on Sequential Minimal
Optimization, an optimized though inherent sequential algorithm. Hence, they
are not well-suited for highly parallel GPUs. Furthermore, we are not aware of
a performance portable implementation that supports CPUs and GPUs from
different vendors.
We have developed the PLSSVM library to solve both issues. First, we resort
to the formulation of the SVM as a least squares problem. Training an SVM then
boils down to solving a system of linear equations for which highly parallel
algorithms are known. Second, we provide a hardware independent yet efficient
implementation: PLSSVM uses different interchangeable backends--OpenMP, CUDA,
OpenCL, SYCL--supporting modern hardware from various vendors like NVIDIA, AMD,
or Intel on multiple GPUs. PLSSVM can be used as a drop-in replacement for
LIBSVM. We observe a speedup on CPUs of up to 10 compared to LIBSVM and on GPUs
of up to 14 compared to ThunderSVM. Our implementation scales on many-core CPUs
with a parallel speedup of 74.7 on up to 256 CPU threads and on multiple GPUs
with a parallel speedup of 3.71 on four GPUs.
The code, utility scripts, and the documentation are available on GitHub:
https://github.com/SC-SGS/PLSSVM.
- Abstract(参考訳): 機械学習アルゴリズムは、膨大なデータセットに効率的に対処できなければならない。
したがって、あらゆる現代的なシステムにうまくスケールし、ベンダーに依存しないアクセラレーターの計算能力を活用できなければならない。
教師あり学習の分野では、SVM(Support Vector Machines)が広く使われている。
しかし、LIBSVMやThunderSVMのような近代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
したがって、高い並列GPUには適していない。
さらに、異なるベンダーのcpuとgpuをサポートするパフォーマンスポータブル実装には気付いていません。
両問題を解決するためにPLSSVMライブラリを開発した。
まず、SVMを最小二乗問題として定式化する。
SVMを訓練すると、高度に並列なアルゴリズムが知られている線形方程式のシステムを解く。
PLSSVMは、異なる交換可能なバックエンド(OpenMP、CUDA、OpenCL、SYCL)を使用し、NVIDIA、AMD、Intelといった様々なベンダーから複数のGPU上でモダンなハードウェアをサポートする。
PLSSVMは、LIBSVMのドロップイン代替として使用できる。
我々は、libsvmと比較して最大10cpu、thundersvmと比較して最大14gpuの速度アップを観察した。
実装は、最大256CPUスレッドで74.7の並列スピードアップを持つマルチコアCPUと、4GPUで3.71の並列スピードアップを持つ複数のGPUにスケールする。
コード、ユーティリティスクリプト、ドキュメントはgithubで入手できる。
関連論文リスト
- Support Vector Machine Implementation on MPI-CUDA and Tensorflow
Framework [0.0]
Support Vector Machine (SVM)アルゴリズムは、複雑な二次プログラミング(QP)最適化問題を解決するために高い計算コストを必要とする。
並列マルチアーキテクチャは、マルチコアCPUと高度にスケーラブルなGPUの両方で利用できる。
本稿では,異なる並列アーキテクチャフレームワーク上でSVMアルゴリズムを実装した比較研究を行う。
論文 参考訳(メタデータ) (2023-11-25T02:52:37Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - Optimizing Data Collection in Deep Reinforcement Learning [4.9709347068704455]
GPUベクタライゼーションは、一般的に使用されるCPUシミュレータよりも最大1024タイムでスピードアップできる。
シミュレーションの複雑さがメモリ帯域幅の要求で増大するにつれて、シミュレーターカーネルの核融合の高速化は11.3Times$となり、最大1024times$に増加することを示す。
論文 参考訳(メタデータ) (2022-07-15T20:22:31Z) - Recipe for Fast Large-scale SVM Training: Polishing, Parallelism, and
more RAM! [0.0]
サポートベクタマシン(SVM)は、機械学習ツールボックスの標準メソッドである。
しかし、非線形カーネルSVMは、長いトレーニング時間に費やして、高い精度の予測器を提供することが多い。
本研究では,2つのアプローチを組み合わせて,超高速なデュアルSVMソルバを設計する。
論文 参考訳(メタデータ) (2022-07-03T11:51:41Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Accelerating SLIDE Deep Learning on Modern CPUs: Vectorization,
Quantizations, Memory Optimizations, and More [26.748770505062378]
SLIDEはスパースハッシュテーブルベースのバックプロパゲーションのC++実装である。
SLIDE の計算によって AVX (Advanced Vector Extensions-512) によるベクトル化が可能となることを示す。
我々の実験は、大規模(数百万のパラメータ)のレコメンデーションとNLPモデルに焦点を当てている。
論文 参考訳(メタデータ) (2021-03-06T02:13:43Z) - GPU-Accelerated Primal Learning for Extremely Fast Large-Scale
Classification [10.66048003460524]
ロジスティック回帰や線形サポートベクターマシン(SVM)分類などのL2正規化原始問題を解く最も効率的な方法の1つは、広く使われている信頼領域ニュートンアルゴリズムであるTRONである。
我々は、GPU最適化の法則を用いて、異なる損失と特徴表現に対するTRONトレーニング時間を劇的に短縮できることを示した。
論文 参考訳(メタデータ) (2020-08-08T03:40:27Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。