Fugu-MT 論文翻訳(概要): Agile Autotuning of a Transprecision Tensor Accelerator Overlay for TVM Compiler Stack

論文の概要: Agile Autotuning of a Transprecision Tensor Accelerator Overlay for TVM Compiler Stack

arxiv url: http://arxiv.org/abs/2004.10854v1
Date: Mon, 20 Apr 2020 10:12:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-11 17:34:02.213031
Title: Agile Autotuning of a Transprecision Tensor Accelerator Overlay for TVM Compiler Stack
Title（参考訳）: TVMコンパイラスタックのための翻訳テンソルアクセラレータオーバーレイのアジャイル自動チューニング
Authors: Dionysios Diamantopoulos, Burkhard Ringlein, Mitra Purandare, Gagandeep Singh, and Christoph Hagleitner
Abstract要約: ブロック行列演算や多次元畳み込みなどのテンソル演算のための特別なアクセラレータは、ディープラーニングコンピューティングの強力なアーキテクチャ選択として登場した。フレームワーク、モデル、精度オプションの急速な開発は、そのようなテンソル加速器の適応性に挑戦する。プログラム可能なテンソルアクセラレータは、物理FPGAファブリック上にオーバーレイする仮想アーキテクチャの再構成を可能にすることで、有望な代替手段を提供する。
参考スコア（独自算出の注目度）: 1.8337659614890698
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Specialized accelerators for tensor-operations, such as blocked-matrix operations and multi-dimensional convolutions, have been emerged as powerful architecture choices for high-performance Deep-Learning computing. The rapid development of frameworks, models, and precision options challenges the adaptability of such tensor-accelerators since the adaptation to new requirements incurs significant engineering costs. Programmable tensor accelerators offer a promising alternative by allowing reconfiguration of a virtual architecture that overlays on top of the physical FPGA configurable fabric. We propose an overlay ({\tau}-VTA) and an optimization method guided by agile-inspired auto-tuning techniques. We achieve higher performance and faster convergence than state-of-art.
Abstract（参考訳）: ブロック行列演算や多次元畳み込みといったテンソル操作のための特別な加速器は、高性能ディープラーニングコンピューティングの強力なアーキテクチャ選択として現れてきた。フレームワーク、モデル、精密オプションの急速な開発は、新しい要求への適応が重要なエンジニアリングコストをもたらすため、テンソル加速器の適応性に挑戦する。プログラム可能なテンソルアクセラレータは、物理的なFPGA構成可能なファブリックの上にオーバーレイする仮想アーキテクチャの再構成を可能にすることで、有望な代替手段を提供する。オーバレイ({\tau}-VTA)と,アジャイルにインスパイアされた自動チューニング技術による最適化手法を提案する。我々は最先端よりも高い性能と高速な収束を実現する。

関連論文リスト

On Accelerating Edge AI: Optimizing Resource-Constrained Environments [1.7355861031903428]
リソース制約のあるエッジデプロイメントでは、厳格な計算、メモリ、エネルギー制限とハイパフォーマンスのバランスをとるAIソリューションが要求される。本稿では,このような制約下でのディープラーニングモデルを加速するための主要な戦略について概観する。
論文参考訳（メタデータ） (2025-01-25T01:37:03Z)
Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文参考訳（メタデータ） (2024-07-12T09:24:34Z)
Multiplicative update rules for accelerating deep learning training and increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文参考訳（メタデータ） (2023-07-14T06:44:43Z)
MetaML: Automating Customizable Cross-Stage Design-Flow for Deep Learning Acceleration [5.2487252195308844]
本稿では,ディープニューラルネットワーク(DNN)ハードウェアアクセラレータのための新しい最適化フレームワークを提案する。設計フローアーキテクチャ構築のための新しい最適化と変換タスクを導入する。以上の結果から,DSP使用率92%,LUT使用率89%の大幅な削減が得られた。
論文参考訳（メタデータ） (2023-06-14T21:06:07Z)
TransCODE: Co-design of Transformers and Accelerators for Efficient Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文参考訳（メタデータ） (2023-03-27T02:45:18Z)
Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。 Transformerモデルをより効率的にすることに注力している。
論文参考訳（メタデータ） (2023-02-27T18:18:13Z)
AutoPEFT: Automatic Configuration Search for Parameter-Efficient Fine-Tuning [77.61565726647784]
ニューラルアーキテクチャ検索の進歩により,自動PEFT設定選択のためのAutoPEFTを提案する。本稿では,AutoPEFTが検出した構成が既存のPEFT法よりも大幅に優れており,FFTと同等かそれ以上であることを示す。
論文参考訳（メタデータ） (2023-01-28T08:51:23Z)
HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文参考訳（メタデータ） (2022-11-30T05:31:45Z)
Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-22T23:53:14Z)
Easy and Efficient Transformer : Scalable Inference Solution For large NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。 EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文参考訳（メタデータ） (2021-04-26T11:00:56Z)
Apollo: Transferable Architecture Exploration [26.489275442359464]
我々はApolloと呼ばれるトランスファー可能なアーキテクチャ探索フレームワークを提案する。提案手法は,ベースラインのブラックボックス最適化手法よりも,高報酬設計構成のサンプル効率が高いことを示す。
論文参考訳（メタデータ） (2021-02-02T19:36:02Z)
A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文参考訳（メタデータ） (2020-08-03T17:24:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。