論文の概要: Self-Adaptive Reconfigurable Arrays (SARA): Using ML to Assist Scaling
GEMM Acceleration
- arxiv url: http://arxiv.org/abs/2101.04799v1
- Date: Tue, 12 Jan 2021 23:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 01:32:29.260993
- Title: Self-Adaptive Reconfigurable Arrays (SARA): Using ML to Assist Scaling
GEMM Acceleration
- Title(参考訳): SARA(Self-Adaptive Reconfigurable Arrays):スケーリングGEMM高速化を支援するML
- Authors: Ananda Samajdar, Michael Pellauer, Tushar Krishna
- Abstract要約: この研究では、Self Adaptive Reconfigurable Array(SARA)と呼ばれる新しいアクセラレータクラスを紹介します。
SARAは、分散システムとして動作する10244x4アレイのコレクションと同じマッピング柔軟性を提供し、3.5倍の電力効率と3.2倍の計算密度を実現できます。
現在の層パラメータに対する配列構成とデータフローを推薦するADAPTNETと呼ばれる新しい推奨ニューラルネットワークを開発する。
- 参考スコア(独自算出の注目度): 3.2218154783263833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With increasing diversity in Deep Neural Network(DNN) models in terms of
layer shapes and sizes, the research community has been investigating
flexible/reconfigurable accelerator substrates. This line of research has
opened up two challenges. The first is to determine the appropriate amount of
flexibility within an accelerator array that that can trade-off the performance
benefits versus the area overheads of the reconfigurability. The second is
being able to determine the right configuration of the array for the current
DNN model and/or layer and reconfigure the accelerator at runtime. This work
introduces a new class of accelerators that we call Self Adaptive
Reconfigurable Array (SARA). SARA architectures comprise of both a
reconfigurable array and a hardware unit capable of determining an optimized
configuration for the array at runtime. We demonstrate an instance of SARA with
an accelerator we call SAGAR, which introduces a novel reconfigurable systolic
array that can be configured to work as a distributed collection of smaller
arrays of various sizes or as a single array with flexible aspect ratios. We
also develop a novel recommendation neural network called ADAPTNET which
recommends an array configuration and dataflow for the current layer
parameters. ADAPTNET runs on an integrated custom hardware ADAPTNETX that runs
ADAPTNET at runtime and reconfigures the array, making the entire accelerator
self-sufficient. SAGAR is capable of providing the same mapping flexibility as
a collection of 10244x4 arrays working as a distributed system while achieving
3.5x more power efficiency and 3.2x higher compute density Furthermore, the
runtime achieved on the recommended parameters from ADAPTNET is 99.93% of the
best achievable runtime.
- Abstract(参考訳): 層形状とサイズの観点からのディープニューラルネットワーク(DNN)モデルの多様性の向上に伴い、研究コミュニティはフレキシブル/再構成可能な加速器基板を調査してきた。
この研究は2つの課題を提起した。
ひとつは、パフォーマンス上のメリットと再構成可能性のオーバーヘッドをトレードオフできるアクセラレータアレイ内の適切な柔軟性を決定することです。
2つ目は、現在のDNNモデルと/またはレイヤの配列の適切な設定を決定し、実行時にアクセラレータを再設定できることです。
本稿では、self adaptive reconfigurable array(sara)と呼ばれる新しいタイプのアクセラレータを紹介します。
SARAアーキテクチャは、再構成可能な配列と、実行時に配列の最適化された構成を決定するハードウェアユニットの両方で構成されている。
我々は、SARAのインスタンスをSAGARと呼ぶアクセラレータでデモし、様々なサイズの小さな配列の分散コレクションや柔軟なアスペクト比を持つ単一配列として機能するように構成できる、新しい再構成可能なシストリックアレイを導入しました。
我々はまた、現在の層パラメータに対する配列設定とデータフローを推奨するADAPTNETと呼ばれる新しいレコメンデーションニューラルネットワークを開発した。
ADAPTNETは、ADAPTNETを実行時に実行し、配列を再設定する統合されたカスタムハードウェアADAPTNETXで動作し、アクセル全体を自己充足する。
SAGARは、分散システムとして動作する10244x4配列の集合と同じマッピング柔軟性を提供し、3.5倍の電力効率と3.2倍の計算密度を実現している。
関連論文リスト
- A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - LoRA-Switch: Boosting the Efficiency of Dynamic LLM Adapters via System-Algorithm Co-design [23.874726096958135]
動的アダプタのきめ細かいコストを分析し、断片化されたカーネル呼び出しが根本原因であることを確かめる。
レイヤワイドまたはブロックワイドな動的ルーティングを採用する既存の動的構造とは異なり、LoRA-Switchはトークンワイドなルーティング機構を導入している。
効率を上げるために、このスイッチングは最適化されたカーネルで実装され、同時にすべてのLoRAアダプタの操作を融合させる。
論文 参考訳(メタデータ) (2024-05-28T01:53:26Z) - RAMAN: A Re-configurable and Sparse tinyML Accelerator for Inference on
Edge [1.8293684411977293]
エッジでのDeep Neural Network(DNN)ベースの推論は、これらの計算およびデータ集約アルゴリズムを低コストで低消費電力で実装する必要があるため、難しい。
エッジ上のInfereNce用のRe-configurableおよびspArse smallML AcceleratorであるRAMANを紹介します。
論文 参考訳(メタデータ) (2023-06-10T17:25:58Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - HKNAS: Classification of Hyperspectral Imagery Based on Hyper Kernel
Neural Architecture Search [104.45426861115972]
設計したハイパーカーネルを利用して,構造パラメータを直接生成することを提案する。
我々は1次元または3次元の畳み込みを伴う画素レベルの分類と画像レベルの分類を別々に行う3種類のネットワークを得る。
6つの公開データセットに関する一連の実験は、提案手法が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2023-04-23T17:27:40Z) - Bifrost: End-to-End Evaluation and Optimization of Reconfigurable DNN
Accelerators [0.0]
Bifrostは、再構成可能な推論アクセラレータの評価と最適化のためのエンドツーエンドフレームワークである。
我々は,ByfrostのSTONNEおよび他のツールに対する優位性を論じ,Byfrost を用いた MAERI および SIGMA アーキテクチャの評価を行った。
論文 参考訳(メタデータ) (2022-04-26T16:22:24Z) - Scale-out Systolic Arrays [37.398797072460034]
マルチポッド・シストリック・アレイ設計において,配列の粒度,相互接続,タイリングの3つの鍵柱について検討した。
ワークロード間で最適な配列の粒度を特定し、最先端の商用アクセラレータが単一テナンシワークロードに最適な配列サイズを使用していることを示す。
シングルテナンシとマルチテナンシの両方を対象としたマルチポッド推論アクセラレータであるScale-out Sy Arraysを提案する。
論文 参考訳(メタデータ) (2022-03-22T08:46:11Z) - Trilevel Neural Architecture Search for Efficient Single Image
Super-Resolution [127.92235484598811]
本稿では,高効率単一画像超解像(SR)のための3レベルニューラルネットワーク探索法を提案する。
離散探索空間をモデル化するために、離散探索空間に新たな連続緩和を適用し、ネットワークパス、セル操作、カーネル幅の階層的混合を構築する。
階層型スーパーネット方式による最適化を行うため,効率的な探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-17T12:19:49Z) - VEGA: Towards an End-to-End Configurable AutoML Pipeline [101.07003005736719]
VEGAは効率よく包括的なAutoMLフレームワークで、複数のハードウェアプラットフォームに互換性があり、最適化されている。
VEGAは既存のAutoMLアルゴリズムを改善し、SOTAメソッドに対して新しい高性能モデルを発見する。
論文 参考訳(メタデータ) (2020-11-03T06:53:53Z) - FlexSA: Flexible Systolic Array Architecture for Efficient Pruned DNN
Model Training [1.718730454558804]
一般的なトレーニングアクセラレーターを大きなシストリックアレイでプルーニングすることは、非常に性能的に非効率であることがわかった。
本研究では,シストリックアレイを効率的なプルーニングとトレーニングを行うために,フレキシブルなシストリックアレイアーキテクチャであるFlexSAを提案する。
また、FlexSAのリソースを最大限活用するために、トレーニング作業負荷における行列乗算および累積演算のコンパイルを提案する。
論文 参考訳(メタデータ) (2020-04-27T15:51:20Z) - DDPNAS: Efficient Neural Architecture Search via Dynamic Distribution
Pruning [135.27931587381596]
DDPNASと呼ばれる効率よく統一されたNASフレームワークを提案する。
検索空間は動的に切断され,その分布はいくつかのエポック毎に更新される。
提案した効率的なネットワーク生成手法により,与えられた制約に対する最適なニューラルネットワークアーキテクチャを直接取得する。
論文 参考訳(メタデータ) (2019-05-28T06:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。