論文の概要: Allo: A Programming Model for Composable Accelerator Design
- arxiv url: http://arxiv.org/abs/2404.04815v1
- Date: Sun, 7 Apr 2024 05:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 19:30:39.109625
- Title: Allo: A Programming Model for Composable Accelerator Design
- Title(参考訳): Allo: 構成可能なアクセラレータ設計のためのプログラミングモデル
- Authors: Hongzheng Chen, Niansong Zhang, Shaojie Xiang, Zhichen Zeng, Mengjia Dai, Zhiru Zhang,
- Abstract要約: 本稿では,効率的な空間加速器設計のための構成可能なプログラミングモデルであるAlloを紹介する。
Alloは、計算、メモリ、通信、データタイプなど、ハードウェアのカスタマイズをアルゴリズム仕様から切り離している。
評価の結果,AlloはPolyBenchのすべてのテストケースにおいて,最先端のHLSツールやADLよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 7.884541004161727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Special-purpose hardware accelerators are increasingly pivotal for sustaining performance improvements in emerging applications, especially as the benefits of technology scaling continue to diminish. However, designers currently lack effective tools and methodologies to construct complex, high-performance accelerator architectures in a productive manner. Existing high-level synthesis (HLS) tools often require intrusive source-level changes to attain satisfactory quality of results. Despite the introduction of several new accelerator design languages (ADLs) aiming to enhance or replace HLS, their advantages are more evident in relatively simple applications with a single kernel. Existing ADLs prove less effective for realistic hierarchical designs with multiple kernels, even if the design hierarchy is flattened. In this paper, we introduce Allo, a composable programming model for efficient spatial accelerator design. Allo decouples hardware customizations, including compute, memory, communication, and data type from algorithm specification, and encapsulates them as a set of customization primitives. Allo preserves the hierarchical structure of an input program by combining customizations from different functions in a bottom-up, type-safe manner. This approach facilitates holistic optimizations that span across function boundaries. We conduct comprehensive experiments on commonly-used HLS benchmarks and several realistic deep learning models. Our evaluation shows that Allo can outperform state-of-the-art HLS tools and ADLs on all test cases in the PolyBench. For the GPT2 model, the inference latency of the Allo generated accelerator is 1.7x faster than the NVIDIA A100 GPU with 5.4x higher energy efficiency, demonstrating the capability of Allo to handle large-scale designs.
- Abstract(参考訳): 特殊目的ハードウェアアクセラレータは、特にテクノロジスケーリングのメリットが減少を続ける中で、新興アプリケーションのパフォーマンス改善を維持するために、ますます重要になっている。
しかし、デザイナは現在、複雑な高性能加速器アーキテクチャを生産的に構築する効果的なツールや方法論を欠いている。
既存のHLS(High-level synthesis)ツールは、結果の良好な品質を達成するために、侵入的なソースレベルの変更を必要とすることが多い。
HLSの強化や置き換えを目的としたいくつかの新しいアクセラレータ設計言語 (ADL) が導入されたが、その利点は比較的単純なアプリケーションにおいて1つのカーネルでより明らかである。
既存のADLは、たとえ設計階層が平坦であったとしても、複数のカーネルを持つ現実的な階層設計では効果が低い。
本稿では,効率的な空間加速器設計のための構成可能なプログラミングモデルであるAlloを紹介する。
Alloは、アルゴリズム仕様から計算、メモリ、通信、データタイプを含むハードウェアのカスタマイズを分離し、それらをカスタマイズプリミティブのセットとしてカプセル化する。
Alloは、ボトムアップでタイプセーフな方法で異なる関数からのカスタマイズを組み合わせることで、入力プログラムの階層構造を保存する。
このアプローチは関数境界にまたがる全体最適化を促進する。
我々は、一般的に使われているHLSベンチマークと、いくつかの現実的なディープラーニングモデルに関する包括的な実験を行う。
評価の結果,AlloはPolyBenchのすべてのテストケースにおいて,最先端のHLSツールやADLよりも優れていることがわかった。
GPT2モデルでは、Alloの生成したアクセラレータの推論レイテンシはNVIDIA A100 GPUの5.4倍のエネルギー効率で1.7倍速くなる。
関連論文リスト
- AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - HESSO: Towards Automatic Efficient and User Friendly Any Neural Network Training and Pruning [38.01465387364115]
Only-Train-Once (OTO)シリーズはワークフローの合理化によって多くの問題点を解決するために最近提案されている。
各種アプリケーションにおけるHESSOとHESSO-CRICの改良版の有効性を数値的に示す。
論文 参考訳(メタデータ) (2024-09-11T05:28:52Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - AutoHLS: Learning to Accelerate Design Space Exploration for HLS Designs [10.690389829735661]
本稿では,深層ニューラルネットワーク(DNN)とベイズ最適化(BO)を統合してHLSハードウェア設計最適化を高速化する,AutoHLSという新しいフレームワークを提案する。
実験の結果,探索時間の70倍のスピードアップが得られた。
論文 参考訳(メタデータ) (2024-03-15T21:14:44Z) - Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Chimera: A Hybrid Machine Learning Driven Multi-Objective Design Space
Exploration Tool for FPGA High-Level Synthesis [11.128278223431805]
高レベル合成(HLS)ツールはFPGAのハードウェア設計を単純化するために開発された。
高いパフォーマンスを達成するためにこれらの最適化を適用するのには時間がかかり、通常は専門家の知識が必要です。
本稿では,HLS最適化ディレクティブを応用した自動設計空間探索ツールChimeraを提案する。
論文 参考訳(メタデータ) (2022-07-03T21:13:55Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - Scalable Deep-Learning-Accelerated Topology Optimization for Additively
Manufactured Materials [4.221095652322005]
トポロジー最適化(TO)は、新しい構造、材料、デバイスを設計するための、人気があり強力な計算手法である。
これらの課題に対処するため、SDL-TOと呼ばれる汎用拡張型ディープラーニング(DL)ベースのToフレームワークを提案する。
我々のフレームワークは、反復履歴データを学習し、与えられた設計と勾配のマッピングを同時にトレーニングすることで、TOを加速します。
論文 参考訳(メタデータ) (2020-11-28T17:38:31Z) - Agile Autotuning of a Transprecision Tensor Accelerator Overlay for TVM
Compiler Stack [1.8337659614890698]
ブロック行列演算や多次元畳み込みなどのテンソル演算のための特別なアクセラレータは、ディープラーニングコンピューティングの強力なアーキテクチャ選択として登場した。
フレームワーク、モデル、精度オプションの急速な開発は、そのようなテンソル加速器の適応性に挑戦する。
プログラム可能なテンソルアクセラレータは、物理FPGAファブリック上にオーバーレイする仮想アーキテクチャの再構成を可能にすることで、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2020-04-20T10:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。