論文の概要: Large Scale Distributed Linear Algebra With Tensor Processing Units
- arxiv url: http://arxiv.org/abs/2112.09017v1
- Date: Thu, 16 Dec 2021 16:55:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-04 09:19:36.728852
- Title: Large Scale Distributed Linear Algebra With Tensor Processing Units
- Title(参考訳): テンソル処理ユニットを用いた大規模分散線形代数
- Authors: Adam G.M. Lewis, Jackson Beall, Martin Ganahl, Markus Hauru, Shrestha
Basu Mallick, and Guifre Vidal
- Abstract要約: 我々は、機械学習用に開発されたアプリケーション固有のチップであるGoogle Processing Units (TPU) を、大規模で高密度な線形代数スーパーコンピュータにキュレートした。
マトリックス・マルチ・ユニット(MXU)がランタイムを支配しており、素晴らしいスケーリング、パフォーマンス、生のサイズを実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We have repurposed Google Tensor Processing Units (TPUs),
application-specific chips developed for machine learning, into large-scale
dense linear algebra supercomputers. The TPUs' fast inter-core interconnects
(ICI)s, physically two-dimensional network topology, and high-bandwidth memory
(HBM) permit distributed matrix multiplication algorithms to rapidly become
computationally bound. In this regime, the matrix-multiply units (MXU)s
dominate the runtime, yielding impressive scaling, performance, and raw size:
operating in float32 precision, a full 2048-core pod of third generation TPUs
can multiply two matrices with linear size $N= 220= 1 048 576$ in about 2
minutes. Via curated algorithms emphasizing large, single-core matrix
multiplications, other tasks in dense linear algebra can similarly scale. As
examples, we present (i) QR decomposition; (ii) resolution of linear systems;
and (iii) the computation of matrix functions by polynomial iteration,
demonstrated by the matrix polar factorization.
- Abstract(参考訳): 機械学習用に開発されたアプリケーション固有のチップであるGoogle Tensor Processing Units (TPUs) を,大規模で高密度な線形代数スーパーコンピュータに再利用した。
TPUの高速コアインターコネクト(ICI)、物理的に2次元ネットワークトポロジー、高帯域メモリ(HBM)は、分散行列乗算アルゴリズムを高速に計算バウンドにすることができる。
この体制では、行列乗算ユニット (MXU) が実行時を支配しており、スケール、性能、生サイズが顕著である:float32精度で動作し、第3世代のTPUの2048コアのポッドが2つの行列を2分ほどで乗算できる。
大きいシングルコア行列乗法を強調するキュレートアルゴリズムによって、密度線形代数における他のタスクも同様にスケールすることができる。
例を挙げると
(i)QR分解;
(ii)線形システムの分解能,及び
(iii) 多項式反復による行列関数の計算は、行列極分解によって示される。
関連論文リスト
- Fast, Scalable, Energy-Efficient Non-element-wise Matrix Multiplication on FPGA [10.630802853096462]
現代のニューラルネットワーク(NN)アーキテクチャは、膨大な数の乗算演算に依存している。
本稿ではFPGA上の高スループット,スケーラブル,エネルギー効率の非要素的行列乗算ユニットを提案する。
AMUを使用すると、FPGAベースの量子ニューラルネットワーク(QNN)アクセラレーターの最先端ソリューションよりも最大9倍高いスループットと112倍高いエネルギー効率が得られる。
論文 参考訳(メタデータ) (2024-07-02T15:28:10Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - CoLA: Exploiting Compositional Structure for Automatic and Efficient
Numerical Linear Algebra [62.37017125812101]
機械学習における大規模線形代数問題に対して, CoLA という, 単純だが汎用的なフレームワークを提案する。
線形演算子抽象と合成ディスパッチルールを組み合わせることで、CoLAはメモリと実行時の効率的な数値アルゴリズムを自動的に構築する。
偏微分方程式,ガウス過程,同変モデル構築,教師なし学習など,幅広い応用で有効性を示す。
論文 参考訳(メタデータ) (2023-09-06T14:59:38Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - High-Dimensional Sparse Bayesian Learning without Covariance Matrices [66.60078365202867]
共分散行列の明示的な構成を避ける新しい推論手法を提案する。
本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。
いくつかのシミュレーションにおいて,本手法は計算時間とメモリにおける既存手法よりも拡張性が高い。
論文 参考訳(メタデータ) (2022-02-25T16:35:26Z) - A Deep Learning Inference Scheme Based on Pipelined Matrix
Multiplication Acceleration Design and Non-uniform Quantization [9.454905560571085]
本稿では,パイプライン行列乗算法と非一様量子化法に基づく低消費電力多層パーセプトロン(MLP)加速器を提案する。
その結果,本手法は少ない消費電力で優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-10T17:31:27Z) - Efficient GPU implementation of randomized SVD and its applications [17.71779625877989]
行列分解は、次元データの圧縮やディープラーニングアルゴリズムなど、機械学習においてユビキタスである。
行列分解の典型的な解は、計算コストと時間を大幅に増大させる複雑さを持つ。
我々は,計算行列分解の計算負担を軽減するために,現代のグラフィカル処理ユニット(GPU)で並列に動作する効率的な処理操作を利用する。
論文 参考訳(メタデータ) (2021-10-05T07:42:41Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - A matrix math facility for Power ISA(TM) processors [0.16910097443356495]
マトリックス・マルチ・アシスト(Matrix-Multiply Assist)と呼ばれる新しい数学命令のファミリーがPower ISA(TM)バージョン3.1で導入された。
これらの命令は、将来のPOWER10プロセッサで高スループットの計算エンジンをパワー効率で実装するきっかけとなった。
コア毎のパフォーマンスは、前世代のPOWER9プロセッサの4倍、一定の周波数で向上している。
論文 参考訳(メタデータ) (2021-04-07T14:17:32Z) - Direct Spatial Implementation of Sparse Matrix Multipliers for Reservoir
Computing [0.0]
貯水池の計算システムは、非常に大きくてスパースな固定行列の繰り返し乗算に依存している。
これらの固定行列の直接実装は、計算で実行される作業を最小化する。
ビットシリアル行列乗算器の構造を提示し、正則符号付き桁表現を用いて論理利用をさらに削減する。
論文 参考訳(メタデータ) (2021-01-21T23:16:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。