論文の概要: GPU-Accelerated Primal Learning for Extremely Fast Large-Scale
Classification
- arxiv url: http://arxiv.org/abs/2008.03433v2
- Date: Thu, 15 Oct 2020 03:16:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 11:37:28.608622
- Title: GPU-Accelerated Primal Learning for Extremely Fast Large-Scale
Classification
- Title(参考訳): 超高速大規模分類のためのGPU加速プリマルラーニング
- Authors: John T. Halloran and David M. Rocke
- Abstract要約: ロジスティック回帰や線形サポートベクターマシン(SVM)分類などのL2正規化原始問題を解く最も効率的な方法の1つは、広く使われている信頼領域ニュートンアルゴリズムであるTRONである。
我々は、GPU最適化の法則を用いて、異なる損失と特徴表現に対するTRONトレーニング時間を劇的に短縮できることを示した。
- 参考スコア(独自算出の注目度): 10.66048003460524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most efficient methods to solve L2-regularized primal problems,
such as logistic regression and linear support vector machine (SVM)
classification, is the widely used trust region Newton algorithm, TRON. While
TRON has recently been shown to enjoy substantial speedups on shared-memory
multi-core systems, exploiting graphical processing units (GPUs) to speed up
the method is significantly more difficult, owing to the highly complex and
heavily sequential nature of the algorithm. In this work, we show that using
judicious GPU-optimization principles, TRON training time for different losses
and feature representations may be drastically reduced. For sparse feature
sets, we show that using GPUs to train logistic regression classifiers in
LIBLINEAR is up to an order-of-magnitude faster than solely using
multithreading. For dense feature sets--which impose far more stringent memory
constraints--we show that GPUs substantially reduce the lengthy SVM learning
times required for state-of-the-art proteomics analysis, leading to dramatic
improvements over recently proposed speedups. Furthermore, we show how GPU
speedups may be mixed with multithreading to enable such speedups when the
dataset is too large for GPU memory requirements; on a massive dense proteomics
dataset of nearly a quarter-billion data instances, these mixed-architecture
speedups reduce SVM analysis time from over half a week to less than a single
day while using limited GPU memory.
- Abstract(参考訳): ロジスティック回帰や線形サポートベクターマシン(SVM)分類などのL2正規化原始問題を解く最も効率的な方法の1つは、広く使われている信頼領域ニュートンアルゴリズムであるTRONである。
TRONは近年、共有メモリのマルチコアシステムにおいて大幅に高速化されていることが示されているが、アルゴリズムの高度でシーケンシャルな性質のため、グラフィカルな処理ユニット(GPU)を利用してメソッドを高速化することは極めて困難である。
本稿では,gpu最適化原理を用いて,異なる損失や特徴表現に対するトロントレーニング時間を劇的に削減できることを示す。
スパース機能セットでは,LIBLINEARでGPUを用いてロジスティック回帰分類器を訓練することは,単にマルチスレッドを使用するよりも高速であることを示す。
より厳密なメモリ制約を課す、高度な機能セットのために、gpuは最先端のプロテオミクス解析に必要な長いsvm学習時間を実質的に削減し、最近提案されたスピードアップよりも劇的な改善をもたらすことを示した。
さらに、データセットがgpuメモリ要件に大きすぎる場合に、このようなスピードアップを可能にするために、gpuのスピードアップをマルチスレッディングとどのように混ぜ合わせるかを示し、約4億のデータセットからなる巨大なプロテオミクスデータセットでは、これらの混合アーキテクチャのスピードアップにより、限られたgpuメモリを使用する場合、svm分析時間を半週以上から1日未満に短縮する。
関連論文リスト
- Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - High Performance Computing Applied to Logistic Regression: A CPU and GPU
Implementation Comparison [0.0]
汎用GPUによるロジスティック回帰(LR)の並列バージョンを提案する。
我々の実装は、X. Zouらによって提案された並列なグラディエントDescent Logistic Regressionアルゴリズムの直接変換である。
本手法は,画像認識,スパム検出,不正検出などのリアルタイム予測に特に有用である。
論文 参考訳(メタデータ) (2023-08-19T14:49:37Z) - DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。
実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文 参考訳(メタデータ) (2023-07-14T22:52:27Z) - Recipe for Fast Large-scale SVM Training: Polishing, Parallelism, and
more RAM! [0.0]
サポートベクタマシン(SVM)は、機械学習ツールボックスの標準メソッドである。
しかし、非線形カーネルSVMは、長いトレーニング時間に費やして、高い精度の予測器を提供することが多い。
本研究では,2つのアプローチを組み合わせて,超高速なデュアルSVMソルバを設計する。
論文 参考訳(メタデータ) (2022-07-03T11:51:41Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。