論文の概要: Evaluating Spatial Accelerator Architectures with Tiled Matrix-Matrix
Multiplication
- arxiv url: http://arxiv.org/abs/2106.10499v1
- Date: Sat, 19 Jun 2021 13:53:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 08:42:35.355585
- Title: Evaluating Spatial Accelerator Architectures with Tiled Matrix-Matrix
Multiplication
- Title(参考訳): Tiled Matrix-Matrix Multiplication を用いた空間加速器アーキテクチャの評価
- Authors: Gordon E. Moon, Hyoukjun Kwon, Geonhwa Jeong, Prasanth Chatarasi,
Sivasankaran Rajamanickam, Tushar Krishna
- Abstract要約: 我々は,所定の空間加速器とワークロードの組み合わせに対して,階層化されたGEMMに対して最適化されたマッピングを求めるフレームワークを開発する。
5つの空間加速器を用いた評価結果から,本フレームワークが系統的に生成したGEMMマッピングは高い性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 4.878665155352402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing interest in custom spatial accelerators for machine
learning applications. These accelerators employ a spatial array of processing
elements (PEs) interacting via custom buffer hierarchies and networks-on-chip.
The efficiency of these accelerators comes from employing optimized dataflow
(i.e., spatial/temporal partitioning of data across the PEs and fine-grained
scheduling) strategies to optimize data reuse. The focus of this work is to
evaluate these accelerator architectures using a tiled general matrix-matrix
multiplication (GEMM) kernel. To do so, we develop a framework that finds
optimized mappings (dataflow and tile sizes) for a tiled GEMM for a given
spatial accelerator and workload combination, leveraging an analytical cost
model for runtime and energy. Our evaluations over five spatial accelerators
demonstrate that the tiled GEMM mappings systematically generated by our
framework achieve high performance on various GEMM workloads and accelerators.
- Abstract(参考訳): 機械学習アプリケーションのためのカスタム空間アクセラレーターへの関心が高まっている。
これらのアクセラレータは、カスタムバッファ階層とネットワークオンチップを介して相互作用する処理要素(PE)の空間配列を使用する。
これらのアクセラレーターの効率性は、データ再利用を最適化するために最適化されたデータフロー(PE間のデータの空間的/時間的パーティショニングときめ細かいスケジューリング)戦略を利用することによって得られる。
本研究の目的は,これらの加速器アーキテクチャを汎用行列行列乗算(GEMM)カーネルを用いて評価することである。
そこで我々は,与えられた空間加速器とワークロードの組み合わせに対して,階層化されたGEMMに対して最適化されたマッピング(データフローとタイルサイズ)を求めるフレームワークを開発した。
5つの空間的加速器を用いた評価により,我々のフレームワークが系統的に生成したGEMMマッピングは,様々なGEMMワークロードやアクセラレータ上で高い性能を発揮することが示された。
関連論文リスト
- Misam: Using ML in Dataflow Selection of Sparse-Sparse Matrix Multiplication [0.8363939984237685]
スパース行列行列行列乗法(SpGEMM)は、科学計算、グラフ解析、ディープラーニングにおいて重要な演算である。
従来のハードウェアアクセラレータは、固定されたデータフロースキームを備えた特定のスパーシティパターン用に調整されている。
本稿では,SpGEMMタスクに最適なデータフロースキームを適応的に選択するための機械学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-14T16:36:35Z) - Accelerator-driven Data Arrangement to Minimize Transformers Run-time on
Multi-core Architectures [5.46396577345121]
人工知能におけるトランスフォーマーモデルの複雑さは、計算コスト、メモリ使用量、エネルギー消費を拡大します。
ハードウェアアクセラレーターのカーネルサイズに支配される新しいメモリアレンジメント戦略を提案し,オフチップデータアクセスを効果的に最小化する。
我々の手法は、最先端の変圧器を用いた推論を実行する場合、最大2.8倍の速度向上を実現することができる。
論文 参考訳(メタデータ) (2023-12-20T13:01:25Z) - Incremental Multimodal Surface Mapping via Self-Organizing Gaussian
Mixture Models [1.0878040851638]
本文では,環境を連続確率モデルとして表わすインクリメンタルなマルチモーダル表面マッピング手法について述べる。
この研究で使用される戦略は環境を表現するためにガウス混合モデル(GMM)を用いる。
このギャップを埋めるために,高速GMMサブマップ抽出のための空間ハッシュマップを導入する。
論文 参考訳(メタデータ) (2023-09-19T19:49:03Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Bifrost: End-to-End Evaluation and Optimization of Reconfigurable DNN
Accelerators [0.0]
Bifrostは、再構成可能な推論アクセラレータの評価と最適化のためのエンドツーエンドフレームワークである。
我々は,ByfrostのSTONNEおよび他のツールに対する優位性を論じ,Byfrost を用いた MAERI および SIGMA アーキテクチャの評価を行った。
論文 参考訳(メタデータ) (2022-04-26T16:22:24Z) - Data-Driven Offline Optimization For Architecting Hardware Accelerators [89.68870139177785]
PRIMEと呼ばれるハードウェアアクセラレータを設計するための,データ駆動型オフライン最適化手法を開発した。
PRIMEは、最先端のシミュレーション駆動方式の性能を約1.54倍と1.20倍に改善し、必要な総シミュレーション時間をそれぞれ93%と99%削減する。
さらにPRIMEは、ゼロショット設定で見えないアプリケーションのための効果的なアクセラレーターを設計し、シミュレーションベースの手法を1.26倍に向上させた。
論文 参考訳(メタデータ) (2021-10-20T17:06:09Z) - Union: A Unified HW-SW Co-Design Ecosystem in MLIR for Evaluating Tensor
Operations on Spatial Accelerators [4.055002321981825]
We present a HW-SW co-design ecosystem for space accelerators called Union。
我々のフレームワークは、いくつかのアクセラレータコストモデル上で、異なるアルゴリズムとそのマッピングを探索することができる。
コミュニティにとってのユニオンの価値をいくつかのケーススタディで実証する。
論文 参考訳(メタデータ) (2021-09-15T16:42:18Z) - DHA: End-to-End Joint Optimization of Data Augmentation Policy,
Hyper-parameter and Architecture [81.82173855071312]
本稿では,AutoMLコンポーネントを統合したエンドツーエンドソリューションを提案する。
Dhaは、様々なデータセット、特にセルベースの検索空間を持つImageNetの77.4%の精度で、最先端(SOTA)結果を達成する。
論文 参考訳(メタデータ) (2021-09-13T08:12:50Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。