論文の概要: Efficient GPU implementation of randomized SVD and its applications
- arxiv url: http://arxiv.org/abs/2110.03423v1
- Date: Tue, 5 Oct 2021 07:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:24:39.938185
- Title: Efficient GPU implementation of randomized SVD and its applications
- Title(参考訳): ランダム化SVDの効率的なGPU実装とその応用
- Authors: {\L}ukasz Struski, Pawe{\l} Morkisz, Przemys{\l}aw Spurek, Samuel
Rodriguez Bernabeu, Tomasz Trzci\'nski
- Abstract要約: 行列分解は、次元データの圧縮やディープラーニングアルゴリズムなど、機械学習においてユビキタスである。
行列分解の典型的な解は、計算コストと時間を大幅に増大させる複雑さを持つ。
我々は,計算行列分解の計算負担を軽減するために,現代のグラフィカル処理ユニット(GPU)で並列に動作する効率的な処理操作を利用する。
- 参考スコア(独自算出の注目度): 18.339320861642722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Matrix decompositions are ubiquitous in machine learning, including
applications in dimensionality reduction, data compression and deep learning
algorithms. Typical solutions for matrix decompositions have polynomial
complexity which significantly increases their computational cost and time. In
this work, we leverage efficient processing operations that can be run in
parallel on modern Graphical Processing Units (GPUs), predominant computing
architecture used e.g. in deep learning, to reduce the computational burden of
computing matrix decompositions. More specifically, we reformulate the
randomized decomposition problem to incorporate fast matrix multiplication
operations (BLAS-3) as building blocks. We show that this formulation, combined
with fast random number generators, allows to fully exploit the potential of
parallel processing implemented in GPUs. Our extensive evaluation confirms the
superiority of this approach over the competing methods and we release the
results of this research as a part of the official CUDA implementation
(https://docs.nvidia.com/cuda/cusolver/index.html).
- Abstract(参考訳): 行列分解は、次元削減、データ圧縮、ディープラーニングアルゴリズムなど、機械学習においてユビキタスである。
行列分解の典型的な解は多項式複雑性を持ち、計算コストと時間を大幅に増加させる。
本研究では, 計算機行列分解の計算負担を軽減するために, ディープラーニングなどの計算アーキテクチャである, 最新のグラフィカル処理ユニット(GPU)上で並列に動作可能な効率的な処理処理処理を利用する。
具体的には、ランダム化分解問題を再構築し、高速行列乗算演算(BLAS-3)をビルディングブロックとして組み込む。
この定式化と高速な乱数生成器を組み合わせることで、gpuに実装された並列処理の可能性を完全に活用できることを示す。
本研究は,本研究の成果を公式なCUDA実装の一部として公表する(https://docs.nvidia.com/cuda/cusolver/index.html)。
関連論文リスト
- An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - CoLA: Exploiting Compositional Structure for Automatic and Efficient
Numerical Linear Algebra [62.37017125812101]
機械学習における大規模線形代数問題に対して, CoLA という, 単純だが汎用的なフレームワークを提案する。
線形演算子抽象と合成ディスパッチルールを組み合わせることで、CoLAはメモリと実行時の効率的な数値アルゴリズムを自動的に構築する。
偏微分方程式,ガウス過程,同変モデル構築,教師なし学習など,幅広い応用で有効性を示す。
論文 参考訳(メタデータ) (2023-09-06T14:59:38Z) - Randomized Polar Codes for Anytime Distributed Machine Learning [66.46612460837147]
本稿では,低速な計算ノードに対して堅牢で,線形演算の近似計算と精度の両立が可能な分散コンピューティングフレームワークを提案する。
本稿では,復号化のための計算複雑性を低く保ちながら,実数値データを扱うための逐次復号アルゴリズムを提案する。
大規模行列乗算やブラックボックス最適化など,様々な文脈において,このフレームワークの潜在的な応用を実証する。
論文 参考訳(メタデータ) (2023-09-01T18:02:04Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Fast and Accurate Pseudoinverse with Sparse Matrix Reordering and
Incremental Approach [4.710916891482697]
擬逆は行列逆の一般化であり、機械学習で広く利用されている。
FastPIはスパース行列に対する新たなインクリメンタル特異値分解法(SVD)である。
我々は,FastPIが精度を損なうことなく,他の近似手法よりも高速に擬似逆計算を行うことを示す。
論文 参考訳(メタデータ) (2020-11-09T07:47:10Z) - Concurrent Alternating Least Squares for multiple simultaneous Canonical
Polyadic Decompositions [2.3513645401551333]
我々は,Matlabにインターフェースを提供するConcurrent ALSアルゴリズムとライブラリを紹介する。
我々は,同じテンソルの複数の分解をアルゴリズムレベルで融合させて算術強度を増大させる方法を示す。
人工データセットと実データセットの実験結果は、算術強度の増加による完了までの時間短縮を示す。
論文 参考訳(メタデータ) (2020-10-09T16:55:46Z) - QR and LQ Decomposition Matrix Backpropagation Algorithms for Square,
Wide, and Deep -- Real or Complex -- Matrices and Their Software
Implementation [0.0]
この記事では、正方形(m = n)、幅(m n)、深さ(m > n)のいずれかの行列のQR分解に対する行列バックプロパゲーションアルゴリズムを、階数$k = min(m, n)$で提示する。
我々は, ピボット(フルランク)QR分解と深部入力行列のLQ分解のための新しい行列バックプロパゲーション結果を得た。
論文 参考訳(メタデータ) (2020-09-19T21:03:37Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。