論文の概要: A Full-stack Accelerator Search Technique for Vision Applications
- arxiv url: http://arxiv.org/abs/2105.12842v1
- Date: Wed, 26 May 2021 21:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:01:06.071368
- Title: A Full-stack Accelerator Search Technique for Vision Applications
- Title(参考訳): 視覚応用のためのフルスタックアクセラレーション探索手法
- Authors: Dan Zhang, Safeen Huda, Ebrahim Songhori, Quoc Le, Anna Goldie, Azalia
Mirhoseini
- Abstract要約: 本稿では,幅広い最適化環境を定義するハードウェアアクセラレーター検索フレームワークを提案する。
FASTは、どんな数やタイプのディープラーニングのワークロードでも使用できる。
単一のワークロードに最適化されたFASTによって生成された設計は、ベストケースではPerf/TDPを6倍改善することができる。
限定的なワークロードサブセットでは、FASTはPerf/TDP 2.85xを平均で改善し、ワークロードセットに最適化された単一の設計に対して2.35xに削減する。
- 参考スコア(独自算出の注目度): 11.932331630567512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapidly-changing ML model landscape presents a unique opportunity for
building hardware accelerators optimized for specific datacenter-scale
workloads. We propose Full-stack Accelerator Search Technique (FAST), a
hardware accelerator search framework that defines a broad optimization
environment covering key design decisions within the hardware-software stack,
including hardware datapath, software scheduling, and compiler passes such as
operation fusion and tensor padding. Although FAST can be used on any number
and type of deep learning workload, in this paper we focus on optimizing for a
single or small set of vision models, resulting in significantly faster and
more power-efficient designs relative to a general purpose ML accelerator. When
evaluated on EfficientNet, ResNet50v2, and OCR inference performance relative
to a TPU-v3, designs generated by FAST optimized for single workloads can
improve Perf/TDP (peak power) by over 6x in the best case and 4x on average. On
a limited workload subset, FAST improves Perf/TDP 2.85x on average, with a
reduction to 2.35x for a single design optimized over the set of workloads. In
addition, we demonstrate a potential 1.8x speedup opportunity for TPU-v3 with
improved scheduling.
- Abstract(参考訳): 急速に変化するMLモデルランドスケープは、特定のデータセンタースケールのワークロードに最適化されたハードウェアアクセラレータを構築するユニークな機会を提供する。
ハードウェアデータパス,ソフトウェアスケジューリング,オペレーションフュージョンやテンソルパディングといったコンパイラパスなど,ハードウェアソフトウェアスタック内の重要な設計決定をカバーする幅広い最適化環境を定義する,ハードウェアアクセラレーション検索フレームワークであるfast(full-stack accelerator search technique)を提案する。
高速は任意の数と種類のディープラーニングワークロードに使用できるが、本論文では、単一または小さなビジョンモデルに対する最適化にフォーカスし、汎用mlアクセラレータに比べて大幅に高速かつ電力効率の高い設計を実現する。
efficientnet、resnet50v2、ocr推論性能でtpu-v3と比較すると、単一ワークロードに最適化された高速設計により、最善のケースで6倍、平均で4倍のperf/tdp(ピークパワー)を改善することができる。
限定的なワークロードサブセットでは、FASTはPerf/TDP 2.85xを平均で改善し、ワークロードセットに最適化された単一の設計に対して2.35xに削減する。
さらに,TPU-v3のスケジュール改善による1.8倍高速化の可能性を示す。
関連論文リスト
- Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - Moses: Efficient Exploitation of Cross-device Transferable Features for
Tensor Program Optimization [10.115260534967645]
本研究では,宝くじの仮説に基づく簡易かつ効率的な設計法であるMosesを提案する。
最先端のアプローチと比較して、Mosesは検索段階で最大1.53倍の効率向上を達成する。
論文 参考訳(メタデータ) (2022-01-15T03:55:52Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Searching for Fast Model Families on Datacenter Accelerators [33.28421782921072]
高速かつ高精度なCNNモデルファミリをDC加速器上での効率的な推論のために探索する。
本稿では,待ち時間と待ち時間の両方を最適化するLACS法を提案する。
我々のLACSは、ネットワークの深さが画像サイズやネットワーク幅よりもはるかに速く成長することを発見した。
論文 参考訳(メタデータ) (2021-02-10T18:15:40Z) - NPAS: A Compiler-aware Framework of Unified Network Pruning and
Architecture Search for Beyond Real-Time Mobile Acceleration [48.25487285358816]
異なるDNNと異なるプルーニングスキームをサポートするコンパイラ自動コード生成フレームワークを提案する。
また,NPAS,コンパイラ対応統合ネットワークプルーニング,アーキテクチャ検索を提案する。
我々のフレームワークは,市販携帯電話でそれぞれ78.2%,75%(MobileNet-V3レベル),71%(MobileNet-V2レベル)のTop-1精度で6.7ms,5.9ms,3.9msのImageNet推論時間を実現している。
論文 参考訳(メタデータ) (2020-12-01T16:03:40Z) - A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。
学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。
オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T17:24:52Z) - Towards High Performance, Portability, and Productivity: Lightweight
Augmented Neural Networks for Performance Prediction [0.0]
カーネル変種ハードウェアの任意の組み合わせのための軽量な拡張ニューラルネットワークを提案する。
従来のフィードフォワードニューラルネットワークよりもはるかに優れた、3%の低いMAPEが得られるのです。
私たちの変分選択アプローチは、Halideの実装で、Halideの自動スケジューリングよりも最大1.7倍のスピードアップを得るために使用できます。
論文 参考訳(メタデータ) (2020-03-17T02:19:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。