論文の概要: Union: A Unified HW-SW Co-Design Ecosystem in MLIR for Evaluating Tensor
Operations on Spatial Accelerators
- arxiv url: http://arxiv.org/abs/2109.07419v1
- Date: Wed, 15 Sep 2021 16:42:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 14:45:41.785852
- Title: Union: A Unified HW-SW Co-Design Ecosystem in MLIR for Evaluating Tensor
Operations on Spatial Accelerators
- Title(参考訳): Union:空間加速器のテンソル操作評価のためのMLIRの統一HW-SW共同設計エコシステム
- Authors: Geonhwa Jeong, Gokcen Kestor, Prasanth Chatarasi, Angshuman Parashar,
Po-An Tsai, Sivasankaran Rajamanickam, Roberto Gioiosa, Tushar Krishna
- Abstract要約: We present a HW-SW co-design ecosystem for space accelerators called Union。
我々のフレームワークは、いくつかのアクセラレータコストモデル上で、異なるアルゴリズムとそのマッピングを探索することができる。
コミュニティにとってのユニオンの価値をいくつかのケーススタディで実証する。
- 参考スコア(独自算出の注目度): 4.055002321981825
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: To meet the extreme compute demands for deep learning across commercial and
scientific applications, dataflow accelerators are becoming increasingly
popular. While these "domain-specific" accelerators are not fully programmable
like CPUs and GPUs, they retain varying levels of flexibility with respect to
data orchestration, i.e., dataflow and tiling optimizations to enhance
efficiency. There are several challenges when designing new algorithms and
mapping approaches to execute the algorithms for a target problem on new
hardware. Previous works have addressed these challenges individually. To
address this challenge as a whole, in this work, we present a HW-SW co-design
ecosystem for spatial accelerators called Union within the popular MLIR
compiler infrastructure. Our framework allows exploring different algorithms
and their mappings on several accelerator cost models. Union also includes a
plug-and-play library of accelerator cost models and mappers which can easily
be extended. The algorithms and accelerator cost models are connected via a
novel mapping abstraction that captures the map space of spatial accelerators
which can be systematically pruned based on constraints from the hardware,
workload, and mapper. We demonstrate the value of Union for the community with
several case studies which examine offloading different tensor
operations(CONV/GEMM/Tensor Contraction) on diverse accelerator architectures
using different mapping schemes.
- Abstract(参考訳): 商用および科学応用におけるディープラーニングの極端な計算要求を満たすため、データフローアクセラレーターはますます人気が高まっている。
これらの"ドメイン固有の"アクセラレータはCPUやGPUのように完全にプログラム可能ではないが、データオーケストレーション、すなわちデータフローとタイリングの最適化に関して様々なレベルの柔軟性を保ち、効率を向上させる。
新しいハードウェア上でターゲット問題のアルゴリズムを実行するための新しいアルゴリズムとマッピングアプローチを設計する場合、いくつかの課題がある。
以前の作品は、これらの課題を個別に扱っている。
この課題全体に対処するため、この研究では、一般的なMLIRコンパイラインフラストラクチャ内でUnionと呼ばれる空間加速器のためのHW-SW共同設計エコシステムを提示する。
我々のフレームワークは、様々なアルゴリズムとそのマッピングをいくつかの加速器コストモデル上で探索できる。
Unionはまた、簡単に拡張できるアクセラレータコストモデルとマッパーのプラグアンドプレイライブラリも備えている。
アルゴリズムと加速器コストモデルは、ハードウェア、ワークロード、マッパーからの制約に基づいて体系的に切断できる空間加速器のマップ空間をキャプチャする新しいマッピング抽象化を介して接続される。
我々は、異なるマッピング方式を用いて様々な加速器アーキテクチャ上で異なるテンソル演算(CONV/GEMM/Tensor Contraction)をオフロードするいくつかのケーススタディで、コミュニティに対するUnionの価値を実証する。
関連論文リスト
- AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Data-Driven Offline Optimization For Architecting Hardware Accelerators [89.68870139177785]
PRIMEと呼ばれるハードウェアアクセラレータを設計するための,データ駆動型オフライン最適化手法を開発した。
PRIMEは、最先端のシミュレーション駆動方式の性能を約1.54倍と1.20倍に改善し、必要な総シミュレーション時間をそれぞれ93%と99%削減する。
さらにPRIMEは、ゼロショット設定で見えないアプリケーションのための効果的なアクセラレーターを設計し、シミュレーションベースの手法を1.26倍に向上させた。
論文 参考訳(メタデータ) (2021-10-20T17:06:09Z) - Multi-task Over-the-Air Federated Learning: A Non-Orthogonal
Transmission Approach [52.85647632037537]
複数の学習タスクがエッジサーバ(ES)の協調の下でデータ収集および学習モデルのためのエッジデバイスを共有するマルチタスク・オーバーテア・フェデレーション・ラーニング(MOAFL)フレームワークを提案する。
収束解析と数値計算の両方の結果から,MOAFLフレームワークは学習性能を著しく低下させることなく,複数のタスクのアップリンク帯域幅の消費を大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-27T13:09:32Z) - Evaluating Spatial Accelerator Architectures with Tiled Matrix-Matrix
Multiplication [4.878665155352402]
我々は,所定の空間加速器とワークロードの組み合わせに対して,階層化されたGEMMに対して最適化されたマッピングを求めるフレームワークを開発する。
5つの空間加速器を用いた評価結果から,本フレームワークが系統的に生成したGEMMマッピングは高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-06-19T13:53:58Z) - Domain-specific Genetic Algorithm for Multi-tenant DNNAccelerator
Scheduling [3.8530020696501794]
複数のサブアクセラレータコア/チップを備えた大型アクセラレータを構築する傾向が強まっている。
この研究は、このようなアクセラレータでマルチテナントをサポートする問題を検討する。
我々は,G#アコストム演算子と呼ばれる特殊な遺伝的アルゴリズムを開発し,構造的サンプル効率探索を実現する。
論文 参考訳(メタデータ) (2021-04-28T19:57:55Z) - The Programming of Deep Learning Accelerators as a Constraint
Satisfaction Problem [0.0]
行列乗算のような複雑な命令で演算子を効率的に実装する新しい手法を提案する。
スカラーデータフロー上の制約満足度問題として組込みを定式化することで、あらゆる可能な組込みソリューションが探索空間に含まれる。
baidu deepbench inference benchmark suiteによるvtaハードウェアアクセラレーターを用いた詳細な評価では、リファレンス実装と競合するコードを自動生成できることが示されている。
論文 参考訳(メタデータ) (2021-04-10T10:39:47Z) - Hardware Acceleration of Sparse and Irregular Tensor Computations of ML
Models: A Survey and Insights [18.04657939198617]
本稿では,ハードウェアアクセラレータ上での機械学習モデルのスパースおよび不規則テンソル計算の効率的な実行に関する包括的調査を行う。
異なるハードウェア設計とアクセラレーション技術を分析し、ハードウェアと実行コストの観点から分析する。
スパース、不規則形状、量子化テンソルの加速における重要な課題を理解すること。
論文 参考訳(メタデータ) (2020-07-02T04:08:40Z) - Dataflow Aware Mapping of Convolutional Neural Networks Onto Many-Core
Platforms With Network-on-Chip Interconnect [0.0764671395172401]
マシンインテリジェンス、特に畳み込みニューラルネットワーク(CNN)は、ここ数年で大きな研究領域となっている。
複数の同質なコアで構成される多コアプラットフォームは、データフローマッピングの労力の増大を犠牲にして、物理実装に関する制限を緩和することができる。
この作業は、最小限のランタイムと最小限のオフチップメモリアクセスに対して、最適化目標の異なるシングルコアレベルから始まる自動マッピング戦略を示す。
この戦略は、適切なマルチコアマッピング方式に拡張され、ネットワークオンチップ相互接続によるスケーラブルなシステムレベルシミュレーションを用いて評価される。
論文 参考訳(メタデータ) (2020-06-18T17:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。