Fugu-MT 論文翻訳(概要): Large Scale Distributed Linear Algebra With Tensor Processing Units

論文の概要: Large Scale Distributed Linear Algebra With Tensor Processing Units

arxiv url: http://arxiv.org/abs/2112.09017v1
Date: Thu, 16 Dec 2021 16:55:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-04 09:19:36.728852
Title: Large Scale Distributed Linear Algebra With Tensor Processing Units
Title（参考訳）: テンソル処理ユニットを用いた大規模分散線形代数
Authors: Adam G.M. Lewis, Jackson Beall, Martin Ganahl, Markus Hauru, Shrestha Basu Mallick, and Guifre Vidal
Abstract要約: 我々は、機械学習用に開発されたアプリケーション固有のチップであるGoogle Processing Units (TPU) を、大規模で高密度な線形代数スーパーコンピュータにキュレートした。マトリックス・マルチ・ユニット(MXU)がランタイムを支配しており、素晴らしいスケーリング、パフォーマンス、生のサイズを実現している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We have repurposed Google Tensor Processing Units (TPUs), application-specific chips developed for machine learning, into large-scale dense linear algebra supercomputers. The TPUs' fast inter-core interconnects (ICI)s, physically two-dimensional network topology, and high-bandwidth memory (HBM) permit distributed matrix multiplication algorithms to rapidly become computationally bound. In this regime, the matrix-multiply units (MXU)s dominate the runtime, yielding impressive scaling, performance, and raw size: operating in float32 precision, a full 2048-core pod of third generation TPUs can multiply two matrices with linear size $N= 220= 1 048 576$ in about 2 minutes. Via curated algorithms emphasizing large, single-core matrix multiplications, other tasks in dense linear algebra can similarly scale. As examples, we present (i) QR decomposition; (ii) resolution of linear systems; and (iii) the computation of matrix functions by polynomial iteration, demonstrated by the matrix polar factorization.
Abstract（参考訳）: 機械学習用に開発されたアプリケーション固有のチップであるGoogle Tensor Processing Units (TPUs) を,大規模で高密度な線形代数スーパーコンピュータに再利用した。 TPUの高速コアインターコネクト(ICI)、物理的に2次元ネットワークトポロジー、高帯域メモリ(HBM)は、分散行列乗算アルゴリズムを高速に計算バウンドにすることができる。この体制では、行列乗算ユニット (MXU) が実行時を支配しており、スケール、性能、生サイズが顕著である:float32精度で動作し、第3世代のTPUの2048コアのポッドが2つの行列を2分ほどで乗算できる。大きいシングルコア行列乗法を強調するキュレートアルゴリズムによって、密度線形代数における他のタスクも同様にスケールすることができる。例を挙げると (i)QR分解; (ii)線形システムの分解能,及び (iii) 多項式反復による行列関数の計算は、行列極分解によって示される。

関連論文リスト

TriADA: Massively Parallel Trilinear Matrix-by-Tensor Multiply-Add Algorithm and Device Architecture for the Acceleration of 3D Discrete Transformations [0.0]
マルチ線形変換は、ハイパフォーマンスコンピューティング(HPC)と人工知能(AI)ワークロードにおいて重要である。並列処理ユニットの数を増やすことでスケール計算はエネルギー消費を大幅に増加させます。 TriADAは、ハイパーキュービックな算術複雑性を持つ様々なトリ線形変換を、線形の時間ステップで実行することができる。
論文参考訳（メタデータ） (2025-06-28T08:42:01Z)
Fast Homomorphic Linear Algebra with BLAS [11.269481520748839]
ホモモルフィック暗号化は、プライバシ保護データ操作、特にAIに幅広いアプリケーションを開く。これらの応用の多くは、重要な線型代数計算(行列 x ベクトル積、行列 x 行列積)を必要とする。線型代数計算のこの中心的な役割は、準同型代数をはるかに超え、科学計算のほとんどの分野に適用できる。 CKKSをベースとした暗号化正方行列乗算と倍精度浮動小数点行列乗算との効率損失は、正確な状況に応じて4-12因子であることを示す。
論文参考訳（メタデータ） (2025-03-20T12:19:47Z)
An Efficient Matrix Multiplication Algorithm for Accelerating Inference in Binary and Ternary Neural Networks [8.779871128906787]
大規模言語モデル(LLM)は、高度な計算インフラに依存しながら推論の非効率さに悩まされる。 3次重み付き1.58ビットLLMの推論時間とメモリ効率を改善するアルゴリズムを提案する。その結果,時間とメモリの両面でのアプローチの優位性が確認され,推論時間は最大29倍,メモリ使用量は最大6倍に短縮された。
論文参考訳（メタデータ） (2024-11-10T04:56:14Z)
Fast, Scalable, Energy-Efficient Non-element-wise Matrix Multiplication on FPGA [10.630802853096462]
現代のニューラルネットワーク(NN)アーキテクチャは、膨大な数の乗算演算に依存している。本稿ではFPGA上の高スループット,スケーラブル,エネルギー効率の非要素的行列乗算ユニットを提案する。 AMUを使用すると、FPGAベースの量子ニューラルネットワーク(QNN)アクセラレーターの最先端ソリューションよりも最大9倍高いスループットと112倍高いエネルギー効率が得られる。
論文参考訳（メタデータ） (2024-07-02T15:28:10Z)
Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文参考訳（メタデータ） (2024-06-10T13:25:43Z)
An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-30T15:57:14Z)
CoLA: Exploiting Compositional Structure for Automatic and Efficient Numerical Linear Algebra [62.37017125812101]
機械学習における大規模線形代数問題に対して, CoLA という, 単純だが汎用的なフレームワークを提案する。線形演算子抽象と合成ディスパッチルールを組み合わせることで、CoLAはメモリと実行時の効率的な数値アルゴリズムを自動的に構築する。偏微分方程式,ガウス過程,同変モデル構築,教師なし学習など,幅広い応用で有効性を示す。
論文参考訳（メタデータ） (2023-09-06T14:59:38Z)
Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文参考訳（メタデータ） (2022-07-09T09:14:12Z)
High-Dimensional Sparse Bayesian Learning without Covariance Matrices [66.60078365202867]
共分散行列の明示的な構成を避ける新しい推論手法を提案する。本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。いくつかのシミュレーションにおいて,本手法は計算時間とメモリにおける既存手法よりも拡張性が高い。
論文参考訳（メタデータ） (2022-02-25T16:35:26Z)
A Deep Learning Inference Scheme Based on Pipelined Matrix Multiplication Acceleration Design and Non-uniform Quantization [9.454905560571085]
本稿では,パイプライン行列乗算法と非一様量子化法に基づく低消費電力多層パーセプトロン(MLP)加速器を提案する。その結果,本手法は少ない消費電力で優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2021-10-10T17:31:27Z)
Efficient GPU implementation of randomized SVD and its applications [17.71779625877989]
行列分解は、次元データの圧縮やディープラーニングアルゴリズムなど、機械学習においてユビキタスである。行列分解の典型的な解は、計算コストと時間を大幅に増大させる複雑さを持つ。我々は,計算行列分解の計算負担を軽減するために,現代のグラフィカル処理ユニット(GPU)で並列に動作する効率的な処理操作を利用する。
論文参考訳（メタデータ） (2021-10-05T07:42:41Z)
Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文参考訳（メタデータ） (2021-09-10T07:01:15Z)
A matrix math facility for Power ISA(TM) processors [0.16910097443356495]
マトリックス・マルチ・アシスト(Matrix-Multiply Assist)と呼ばれる新しい数学命令のファミリーがPower ISA(TM)バージョン3.1で導入された。これらの命令は、将来のPOWER10プロセッサで高スループットの計算エンジンをパワー効率で実装するきっかけとなった。コア毎のパフォーマンスは、前世代のPOWER9プロセッサの4倍、一定の周波数で向上している。
論文参考訳（メタデータ） (2021-04-07T14:17:32Z)
Direct Spatial Implementation of Sparse Matrix Multipliers for Reservoir Computing [0.0]
貯水池の計算システムは、非常に大きくてスパースな固定行列の繰り返し乗算に依存している。これらの固定行列の直接実装は、計算で実行される作業を最小化する。ビットシリアル行列乗算器の構造を提示し、正則符号付き桁表現を用いて論理利用をさらに削減する。
論文参考訳（メタデータ） (2021-01-21T23:16:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。