論文の概要: Agile Autotuning of a Transprecision Tensor Accelerator Overlay for TVM
Compiler Stack
- arxiv url: http://arxiv.org/abs/2004.10854v1
- Date: Mon, 20 Apr 2020 10:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 17:34:02.213031
- Title: Agile Autotuning of a Transprecision Tensor Accelerator Overlay for TVM
Compiler Stack
- Title(参考訳): TVMコンパイラスタックのための翻訳テンソルアクセラレータオーバーレイのアジャイル自動チューニング
- Authors: Dionysios Diamantopoulos, Burkhard Ringlein, Mitra Purandare,
Gagandeep Singh, and Christoph Hagleitner
- Abstract要約: ブロック行列演算や多次元畳み込みなどのテンソル演算のための特別なアクセラレータは、ディープラーニングコンピューティングの強力なアーキテクチャ選択として登場した。
フレームワーク、モデル、精度オプションの急速な開発は、そのようなテンソル加速器の適応性に挑戦する。
プログラム可能なテンソルアクセラレータは、物理FPGAファブリック上にオーバーレイする仮想アーキテクチャの再構成を可能にすることで、有望な代替手段を提供する。
- 参考スコア(独自算出の注目度): 1.8337659614890698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Specialized accelerators for tensor-operations, such as blocked-matrix
operations and multi-dimensional convolutions, have been emerged as powerful
architecture choices for high-performance Deep-Learning computing. The rapid
development of frameworks, models, and precision options challenges the
adaptability of such tensor-accelerators since the adaptation to new
requirements incurs significant engineering costs. Programmable tensor
accelerators offer a promising alternative by allowing reconfiguration of a
virtual architecture that overlays on top of the physical FPGA configurable
fabric. We propose an overlay ({\tau}-VTA) and an optimization method guided by
agile-inspired auto-tuning techniques. We achieve higher performance and faster
convergence than state-of-art.
- Abstract(参考訳): ブロック行列演算や多次元畳み込みといったテンソル操作のための特別な加速器は、高性能ディープラーニングコンピューティングの強力なアーキテクチャ選択として現れてきた。
フレームワーク、モデル、精密オプションの急速な開発は、新しい要求への適応が重要なエンジニアリングコストをもたらすため、テンソル加速器の適応性に挑戦する。
プログラム可能なテンソルアクセラレータは、物理的なFPGA構成可能なファブリックの上にオーバーレイする仮想アーキテクチャの再構成を可能にすることで、有望な代替手段を提供する。
オーバレイ({\tau}-VTA)と,アジャイルにインスパイアされた自動チューニング技術による最適化手法を提案する。
我々は最先端よりも高い性能と高速な収束を実現する。
関連論文リスト
- Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - MetaML: Automating Customizable Cross-Stage Design-Flow for Deep
Learning Acceleration [5.2487252195308844]
本稿では,ディープニューラルネットワーク(DNN)ハードウェアアクセラレータのための新しい最適化フレームワークを提案する。
設計フローアーキテクチャ構築のための新しい最適化と変換タスクを導入する。
以上の結果から,DSP使用率92%,LUT使用率89%の大幅な削減が得られた。
論文 参考訳(メタデータ) (2023-06-14T21:06:07Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - AutoPEFT: Automatic Configuration Search for Parameter-Efficient
Fine-Tuning [77.61565726647784]
ニューラルアーキテクチャ検索の進歩により,自動PEFT設定選択のためのAutoPEFTを提案する。
本稿では,AutoPEFTが検出した構成が既存のPEFT法よりも大幅に優れており,FFTと同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-01-28T08:51:23Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z) - Apollo: Transferable Architecture Exploration [26.489275442359464]
我々はApolloと呼ばれるトランスファー可能なアーキテクチャ探索フレームワークを提案する。
提案手法は,ベースラインのブラックボックス最適化手法よりも,高報酬設計構成のサンプル効率が高いことを示す。
論文 参考訳(メタデータ) (2021-02-02T19:36:02Z) - A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。
学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。
オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T17:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。