論文の概要: Scale-out Systolic Arrays
- arxiv url: http://arxiv.org/abs/2203.11540v1
- Date: Tue, 22 Mar 2022 08:46:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 02:58:32.549174
- Title: Scale-out Systolic Arrays
- Title(参考訳): スケールアウト型シストリックアレイ
- Authors: Ahmet Caner Y\"uz\"ug\"uler, Canberk S\"onmez, Mario Drumond, Yunho
Oh, Babak Falsafi, and Pascal Frossard
- Abstract要約: マルチポッド・シストリック・アレイ設計において,配列の粒度,相互接続,タイリングの3つの鍵柱について検討した。
ワークロード間で最適な配列の粒度を特定し、最先端の商用アクセラレータが単一テナンシワークロードに最適な配列サイズを使用していることを示す。
シングルテナンシとマルチテナンシの両方を対象としたマルチポッド推論アクセラレータであるScale-out Sy Arraysを提案する。
- 参考スコア(独自算出の注目度): 37.398797072460034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-pod systolic arrays are emerging as the architecture of choice in DNN
inference accelerators. Despite their potential, designing multi-pod systolic
arrays to maximize effective throughput/Watt (i.e., throughput/Watt adjusted
when accounting for array utilization) poses a unique set of challenges. In
this work, we study three key pillars in multi-pod systolic array designs,
namely array granularity, interconnect, and tiling. We identify optimal array
granularity across workloads and show that state-of-the-art commercial
accelerators use suboptimal array sizes for single-tenancy workloads. We, then
evaluate the bandwidth/latency trade-offs in interconnects and show that
Butterfly networks offer a scalable topology for accelerators with a large
number of pods. Finally, we introduce a novel data tiling scheme with custom
partition size to maximize utilization in optimally sized pods. We propose
Scale-out Systolic Arrays, a multi-pod inference accelerator for both single-
and multi-tenancy based on these three pillars. We show that SOSA exhibits
scaling of up to 600 TeraOps/s in effective throughput for state-of-the-art DNN
inference workloads, and outperforms state-of-the-art multi-pod accelerators by
a factor of 1.5x.
- Abstract(参考訳): DNN推論アクセラレータにおける選択アーキテクチャとして,マルチポッドシストリックアレイが登場している。
その可能性にもかかわらず、効果的なスループット/ワット(すなわち、配列利用を考慮した場合のスループット/ワット調整)を最大化するマルチポッドシストリックアレイを設計することは、ユニークな課題である。
本研究では,マルチポッド・シストリックアレイ設計における3つの鍵柱,すなわち配列粒度,相互接続,タイリングについて検討する。
ワークロード間の最適な配列粒度を特定し、最先端の商用アクセラレータがシングルテナンシワークロードにサブ最適配列サイズを使用していることを示す。
次に、相互接続における帯域/レイテンシのトレードオフを評価し、Butterflyネットワークが多数のポッドを持つアクセラレーターに対してスケーラブルなトポロジを提供することを示す。
最後に,最適サイズのポッドの利用を最大化するために,分割サイズをカスタマイズした新しいデータタイリング方式を提案する。
本稿では,これら3つの柱をベースとしたマルチポッド推論アクセラレータであるScale-out Systolic Arraysを提案する。
我々は、最先端のDNN推論ワークロードに対して600 TeraOps/sのスケーリングを効果的に実行し、最先端のマルチポッドアクセラレータを1.5倍の性能で上回っていることを示す。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - fVDB: A Deep-Learning Framework for Sparse, Large-Scale, and High-Performance Spatial Intelligence [50.417261057533786]
fVDBは、大規模な3Dデータのディープラーニングのための新しいフレームワークである。
私たちのフレームワークは、既存のパイプラインとの相互運用性を可能にするPyTorchと完全に統合されています。
論文 参考訳(メタデータ) (2024-07-01T20:20:33Z) - A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - High-Fidelity Transport of Trapped-Ion Qubits in a Multi-Layer Array [0.0]
スケーラブルなトラップアレイアーキテクチャにおけるMg$+$イオンのシャットリングについて述べる。
試作法では, サイト間シャットリング時の超微細量子ビットの重ね合わせ状態のコヒーレンスを実証する。
論文 参考訳(メタデータ) (2023-05-09T19:34:50Z) - ArrayFlex: A Systolic Array Architecture with Configurable Transparent
Pipelining [0.0]
畳み込みニューラルネットワーク(CNN)は、多くのディープラーニングアプリケーションのための最先端のソリューションである。
本研究では,パイプラインを用いたシストリックアレイの設計に焦点をあてる。
ArrayFlexは、従来の固定パイプ型シストリックアレイと比較して、最先端CNNのレイテンシを平均で11%削減することを示す。
論文 参考訳(メタデータ) (2022-11-22T21:56:38Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - Self-Adaptive Reconfigurable Arrays (SARA): Using ML to Assist Scaling
GEMM Acceleration [3.2218154783263833]
この研究では、Self Adaptive Reconfigurable Array(SARA)と呼ばれる新しいアクセラレータクラスを紹介します。
SARAは、分散システムとして動作する10244x4アレイのコレクションと同じマッピング柔軟性を提供し、3.5倍の電力効率と3.2倍の計算密度を実現できます。
現在の層パラメータに対する配列構成とデータフローを推薦するADAPTNETと呼ばれる新しい推奨ニューラルネットワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T23:20:23Z) - On the Difficulty of Designing Processor Arrays for Deep Neural Networks [0.0]
カムーイ (Camuy) は、線形代数演算のための重み付き定常シストリックアレイの軽量モデルである。
本稿では,必要サイクル,データ移動コスト,およびシストリックアレイの利用率を推定する方法を説明するために,人気モデルの解析を行う。
論文 参考訳(メタデータ) (2020-06-24T19:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。