Fugu-MT 論文翻訳(概要): Strassen Multisystolic Array Hardware Architectures

論文の概要: Strassen Multisystolic Array Hardware Architectures

arxiv url: http://arxiv.org/abs/2502.10063v1
Date: Fri, 14 Feb 2025 10:40:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-17 19:47:35.704777
Title: Strassen Multisystolic Array Hardware Architectures
Title（参考訳）: Strassen Multisystolic Array ハードウェアアーキテクチャ
Authors: Trevor E. Pogue, Nicola Nicolici,
Abstract要約: ストラッセンの行列乗算アルゴリズムは、単純行列乗算の複雑さを低減する。汎用ハードウェアは、アルゴリズムが約束する理論的なスピードアップを達成するには適していない。本稿では,Strassenのアルゴリズムの理論的複雑性の低減をハードウェアリソースの節約に直接効率的に変換する,新しいシストリックアレイアーキテクチャを提案し,評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While Strassen's matrix multiplication algorithm reduces the complexity of naive matrix multiplication, general-purpose hardware is not suitable for achieving the algorithm's promised theoretical speedups. This leaves the question of if it could be better exploited in custom hardware architectures designed specifically for executing the algorithm. However, there is limited prior work on this and it is not immediately clear how to derive such architectures or if they can ultimately lead to real improvements. We bridge this gap, presenting and evaluating new systolic array architectures that efficiently translate the theoretical complexity reductions of Strassen's algorithm directly into hardware resource savings. Furthermore, the architectures are multisystolic array designs that can multiply smaller matrices with higher utilization than single-systolic array designs. The proposed designs implemented on FPGA reduce DSP requirements by a factor of $1.14^r$ for $r$ implemented Strassen recursion levels, and otherwise require overall similar soft logic resources when instantiated to support matrix sizes down to 32x32 and 24x24 at 1-2 levels of Strassen recursion, respectively. We evaluate the proposed designs both in isolation and in an end-to-end machine learning accelerator compared to baseline designs and prior works, achieving state-of-the-art performance.
Abstract（参考訳）: ストラッセンの行列乗算アルゴリズムは、単純行列乗算の複雑さを減らすが、汎用ハードウェアはアルゴリズムが約束する理論的スピードアップを達成するのに適していない。このことは、アルゴリズムを実行するために特別に設計されたカスタムハードウェアアーキテクチャで、よりうまく活用できるかどうかという問題を残している。しかし、これに関する事前の作業は限られており、どのようにアーキテクチャを導出するか、最終的に真の改善につながるかはすぐには明らかではない。我々はこのギャップを埋め、ストラッセンのアルゴリズムの理論的複雑さの低減をハードウェアリソースの節約に直接効率的に変換する新しいシストリックアレイアーキテクチャを提示し、評価する。さらに、アーキテクチャはマルチシスト配列設計であり、単一シスト配列設計よりも高い利用率でより小さな行列を乗算することができる。 FPGAに実装された提案設計では,Strassen再帰レベルが$1.14^r$でDSP要求を低減し,それ以外は,Strassen再帰の1-2レベルで,行列サイズを32x32,24x24に抑えるためにインスタンス化時に,全体的な類似したソフトロジックリソースを必要とする。提案した設計を,ベースライン設計や先行作業と比較し,単独およびエンドツーエンドの機械学習アクセラレータで評価し,最先端性能を実現した。

関連論文リスト

Enhanced Computationally Efficient Long LoRA Inspired Perceiver Architectures for Auto-Regressive Language Modeling [2.9228447484533695]
Transformer アーキテクチャは自然言語処理分野に革命をもたらし、Large Language Models (LLM) のバックボーンとなっている。 Transformerアーキテクチャの課題の1つは、長いシーケンス長の効率的な処理を禁止する注意機構の二次的な複雑さである。この点において重要な研究の1つは、計算の複雑さを減らしながら優れた性能を示したPerceiverクラスのアーキテクチャである。
論文参考訳（メタデータ） (2024-12-08T23:41:38Z)
AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。 AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-11-07T18:43:17Z)
All-to-all reconfigurability with sparse and higher-order Ising machines [0.0]
オール・ツー・オールのネットワーク機能をエミュレートする多重アーキテクチャを導入する。適応並列テンパリングアルゴリズムの実行は、競合するアルゴリズムと事前ファクターの利点を示す。 pビットIMのスケールされた磁気バージョンは、汎用最適化のための最先端技術よりも桁違いに改善される可能性がある。
論文参考訳（メタデータ） (2023-11-21T20:27:02Z)
KyberMat: Efficient Accelerator for Matrix-Vector Polynomial Multiplication in CRYSTALS-Kyber Scheme via NTT and Polyphase Decomposition [20.592217626952507]
CRYSTAL-Kyber (Kyber) は、標準化プロセス中に選択された暗号鍵カプセル化機構 (KEM) の1つである。本稿では,Kyberアーキテクチャのレイテンシとスループットの制約に対する最適化について述べる。
論文参考訳（メタデータ） (2023-10-06T22:57:25Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文参考訳（メタデータ） (2022-07-09T09:14:12Z)
A Structured Method for Compilation of QAOA Circuits in Quantum Computing [5.560410979877026]
2ビットゲートを並べ替える柔軟性により、コンパイラ最適化により、より深い深さ、ゲート数、忠実度で回路を生成することができる。多次元量子アーキテクチャ上の任意のコンパイルQAOA回路に対して線形深さを保証する構造的手法を提案する。全体として、最大1024キュービットの回路を10秒でコンパイルでき、深さ3.8倍のスピードアップ、ゲート数17%の削減、回路ESPの18倍の改善が可能である。
論文参考訳（メタデータ） (2021-12-12T04:00:45Z)
Reconfigurable co-processor architecture with limited numerical precision to accelerate deep convolutional neural networks [0.38848561367220275]
畳み込みニューラルネットワーク(CNN)は、視覚システムやロボット工学などのディープラーニングアプリケーションで広く使われている。本稿では,CNNを高速化するために,モデルに依存しない再構成可能なコプロセッシングアーキテクチャを提案する。既存の解とは対照的に、算術表現や演算のための限定精度32bit Q-format固定点量子化を導入する。
論文参考訳（メタデータ） (2021-08-21T09:50:54Z)
iDARTS: Differentiable Architecture Search with Stochastic Implicit Gradients [75.41173109807735]
微分可能なArchiTecture Search(DARTS)は先日,ニューラルアーキテクチャサーチ(NAS)の主流になった。暗黙の関数定理に基づいてDARTSの過次計算に取り組む。提案手法であるiDARTSのアーキテクチャ最適化は,定常点に収束することが期待される。
論文参考訳（メタデータ） (2021-06-21T00:44:11Z)
VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。 textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文参考訳（メタデータ） (2021-05-04T04:10:48Z)
Towards Accurate and Compact Architectures via Neural Architecture Transformer [95.4514639013144]
計算コストを増すことなくパフォーマンスを向上させるために、アーキテクチャ内の操作を最適化する必要がある。我々は最適化問題をマルコフ決定プロセス(MDP)にキャストするニューラルアーキテクチャ変換器(NAT)法を提案している。 NAT++(Neural Architecture Transformer++)メソッドを提案し、アーキテクチャ最適化のパフォーマンスを改善するために、候補遷移のセットをさらに拡大する。
論文参考訳（メタデータ） (2021-02-20T09:38:10Z)
PolyDL: Polyhedral Optimizations for Creation of High Performance DL primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2020-06-02T06:44:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。