論文の概要: TriADA: Massively Parallel Trilinear Matrix-by-Tensor Multiply-Add Algorithm and Device Architecture for the Acceleration of 3D Discrete Transformations
- arxiv url: http://arxiv.org/abs/2506.22818v1
- Date: Sat, 28 Jun 2025 08:42:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.587063
- Title: TriADA: Massively Parallel Trilinear Matrix-by-Tensor Multiply-Add Algorithm and Device Architecture for the Acceleration of 3D Discrete Transformations
- Title(参考訳): TriADA: 3次元離散変換の高速化のための超並列3次元行列-テンソル乗法アルゴリズムとデバイスアーキテクチャ
- Authors: Stanislav Sedukhin, Yoichi Tomioka, Kazuya Matsumoto, Yuichi Okuyama,
- Abstract要約: マルチ線形変換は、ハイパフォーマンスコンピューティング(HPC)と人工知能(AI)ワークロードにおいて重要である。
並列処理ユニットの数を増やすことで スケール計算は エネルギー消費を大幅に増加させます。
TriADAは、ハイパーキュービックな算術複雑性を持つ様々なトリ線形変換を、線形の時間ステップで実行することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilinear transformations are key in high-performance computing (HPC) and artificial intelligence (AI) workloads, where data is represented as tensors. However, their high computational and memory demands, which grow with dimensionality, often slow down critical tasks. Moreover, scaling computation by enlarging the number of parallel processing units substantially increases energy consumption, limiting widespread adoption, especially for sparse data, which is common in HPC and AI applications. This paper introduces the Trilinear Algorithm and isomorphic to algorithm Device Architecture (TriADA) to address these challenges with the following innovations: (1) a massively parallel, low-rank algorithm for computing a family of trilinear (3D) discrete orthogonal transformations (3D-DXTs), which is a special case of the more general 3-mode matrix-by-tensor multiplication (3D-GEMT); (2) a new outer-product-based GEMM kernel with decoupled streaming active memory, specially designed to accelerate 3D-GEMT operation; (3) an isomorphic to the proposed algorithm, fully distributed 3D network of mesh interconnected processing elements or cells with a coordinate-free, data-driven local processing activity, which is independent of problem size; (4) an elastic sparse outer-product (ESOP) method that avoids unnecessary computing and communication operations with zero-valued operands, thereby enhancing energy efficiency, computational accuracy, and stability. TriADA is capable of performing a variety of trilinear transformations with hypercubic arithmetic complexity in a linear number of time-steps. The massively parallel, scalable, and energy-efficient architecture of TriADA is ideal for accelerating multilinear tensor operations, which are the most demanding parts of AI and HPC workloads.
- Abstract(参考訳): マルチ線形変換は、データがテンソルとして表現されるハイパフォーマンスコンピューティング(HPC)と人工知能(AI)ワークロードにおいて鍵となる。
しかし、その高い計算量とメモリ要求は次元的に増大し、しばしば重要なタスクを遅くする。
さらに、並列処理ユニットの数を増大させることによるスケーリング計算は、エネルギー消費を大幅に増加させ、特にHPCやAIアプリケーションで一般的なスパースデータに対して、広く採用されることを制限する。
本稿では,トリリニアアルゴリズムとアルゴリズムに同型なTriADA(Trilinear Algorithm and Isomorphic to algorithm Device Architecture, TriADA)を提案する。(1)トリリニア(3D-DXTs)離散直交変換(3D-DXTs)を計算するための超並列低ランクアルゴリズムで,より一般的な3モード行列バイテンソル乗算(3D-GEMT)の特殊な場合である。
TriADAは、ハイパーキュービックな算術複雑性を持つ様々なトリ線形変換を、線形の時間ステップで実行することができる。
TriADAの非常に並列でスケーラブルでエネルギー効率のよいアーキテクチャは、AIとHPCワークロードの最も要求の多い部分であるマルチ線形テンソル操作を加速するのに理想的だ。
関連論文リスト
- Fused3S: Fast Sparse Attention on Tensor Cores [3.6068301267188]
本稿では,テンソルコア利用を最大化し,データ移動を最小化する最初の融合3SアルゴリズムであるFused3Sを紹介する。
実世界のグラフデータセット全体にわたって、Fused3S $1.6-16.3times$と1.5-14times$H100とA30 GPUの最先端のスピードアップ。
論文 参考訳(メタデータ) (2025-05-12T22:09:05Z) - Higher Order Transformers: Efficient Attention Mechanism for Tensor Structured Data [10.327160288730125]
高次変換器(英: Higher-order Transformer、HOT)は、高次テンソル(英語版)と呼ばれる2つ以上の軸を持つデータを処理するように設計されている。
高次テンソルアテンションに関連する計算問題に対処するために、新しいクロネッカー分解アテンション機構を導入する。
多変量時系列予測と3次元医用画像分類を含む2つの高次元課題に対するHOTの有効性を検証する。
論文 参考訳(メタデータ) (2024-12-04T00:10:47Z) - Scaling Studies for Efficient Parameter Search and Parallelism for Large
Language Model Pre-training [2.875838666718042]
並列および分散機械学習アルゴリズムの開発,特に5個のエンコーダデコーダLLMのデータの処理と事前学習の最適化に着目する。
我々は3つのMLメソッド間の関係を定量化するための詳細な研究を行い、特にMicrosoft DeepSpeed Zero Redundancyのステージを探索した。
論文 参考訳(メタデータ) (2023-10-09T02:22:00Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - ADC/DAC-Free Analog Acceleration of Deep Neural Networks with Frequency
Transformation [2.7488316163114823]
本稿では,アナログ領域の周波数ベーステンソル変換を用いた周波数領域ニューラルネットワークのエネルギー効率向上手法を提案する。
提案手法は,変換行列のトレーニング可能なパラメータを不要にすることで,よりコンパクトなセルを実現する。
16$times$16のクロスバーで8ビット入力処理を行い,Watt当たりの1602テラ演算のエネルギー効率を実現する。
論文 参考訳(メタデータ) (2023-09-04T19:19:39Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Large Scale Distributed Linear Algebra With Tensor Processing Units [0.0]
我々は、機械学習用に開発されたアプリケーション固有のチップであるGoogle Processing Units (TPU) を、大規模で高密度な線形代数スーパーコンピュータにキュレートした。
マトリックス・マルチ・ユニット(MXU)がランタイムを支配しており、素晴らしいスケーリング、パフォーマンス、生のサイズを実現している。
論文 参考訳(メタデータ) (2021-12-16T16:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。