Fugu-MT 論文翻訳(概要): A Full-stack Accelerator Search Technique for Vision Applications

論文の概要: A Full-stack Accelerator Search Technique for Vision Applications

arxiv url: http://arxiv.org/abs/2105.12842v1
Date: Wed, 26 May 2021 21:10:20 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-28 16:01:06.071368
Title: A Full-stack Accelerator Search Technique for Vision Applications
Title（参考訳）: 視覚応用のためのフルスタックアクセラレーション探索手法
Authors: Dan Zhang, Safeen Huda, Ebrahim Songhori, Quoc Le, Anna Goldie, Azalia Mirhoseini
Abstract要約: 本稿では,幅広い最適化環境を定義するハードウェアアクセラレーター検索フレームワークを提案する。 FASTは、どんな数やタイプのディープラーニングのワークロードでも使用できる。単一のワークロードに最適化されたFASTによって生成された設計は、ベストケースではPerf/TDPを6倍改善することができる。限定的なワークロードサブセットでは、FASTはPerf/TDP 2.85xを平均で改善し、ワークロードセットに最適化された単一の設計に対して2.35xに削減する。
参考スコア（独自算出の注目度）: 11.932331630567512
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapidly-changing ML model landscape presents a unique opportunity for building hardware accelerators optimized for specific datacenter-scale workloads. We propose Full-stack Accelerator Search Technique (FAST), a hardware accelerator search framework that defines a broad optimization environment covering key design decisions within the hardware-software stack, including hardware datapath, software scheduling, and compiler passes such as operation fusion and tensor padding. Although FAST can be used on any number and type of deep learning workload, in this paper we focus on optimizing for a single or small set of vision models, resulting in significantly faster and more power-efficient designs relative to a general purpose ML accelerator. When evaluated on EfficientNet, ResNet50v2, and OCR inference performance relative to a TPU-v3, designs generated by FAST optimized for single workloads can improve Perf/TDP (peak power) by over 6x in the best case and 4x on average. On a limited workload subset, FAST improves Perf/TDP 2.85x on average, with a reduction to 2.35x for a single design optimized over the set of workloads. In addition, we demonstrate a potential 1.8x speedup opportunity for TPU-v3 with improved scheduling.
Abstract（参考訳）: 急速に変化するMLモデルランドスケープは、特定のデータセンタースケールのワークロードに最適化されたハードウェアアクセラレータを構築するユニークな機会を提供する。ハードウェアデータパス,ソフトウェアスケジューリング,オペレーションフュージョンやテンソルパディングといったコンパイラパスなど,ハードウェアソフトウェアスタック内の重要な設計決定をカバーする幅広い最適化環境を定義する,ハードウェアアクセラレーション検索フレームワークであるfast(full-stack accelerator search technique)を提案する。高速は任意の数と種類のディープラーニングワークロードに使用できるが、本論文では、単一または小さなビジョンモデルに対する最適化にフォーカスし、汎用mlアクセラレータに比べて大幅に高速かつ電力効率の高い設計を実現する。 efficientnet、resnet50v2、ocr推論性能でtpu-v3と比較すると、単一ワークロードに最適化された高速設計により、最善のケースで6倍、平均で4倍のperf/tdp(ピークパワー)を改善することができる。限定的なワークロードサブセットでは、FASTはPerf/TDP 2.85xを平均で改善し、ワークロードセットに最適化された単一の設計に対して2.35xに削減する。さらに,TPU-v3のスケジュール改善による1.8倍高速化の可能性を示す。

関連論文リスト

POLARON: Precision-aware On-device Learning and Adaptive Runtime-cONfigurable AI acceleration [0.0]
本研究は,効率的な乗算累積演算を行うSIMD対応マルチ精度MACエンジンを提案する。このアーキテクチャは、計算精度をワークロードの感度に合わせるための層適応的精度戦略を取り入れている。その結果,PDPは最大で2倍,資源使用量は3倍に改善した。
論文参考訳（メタデータ） (2025-06-10T13:33:02Z)
Towards Efficient Multi-Scale Deformable Attention on NPU [4.661513231235483]
Ascend NPUアーキテクチャ上でMSDAのメモリアクセスと計算戦略を再考する共同設計手法を提案する。我々の実装は、効率的なフォワード計算とバックワード計算の両方をサポートし、トレーニングワークロードに完全に適応し、ハードウェア対応最適化のスイートを組み込んでいます。
論文参考訳（メタデータ） (2025-05-20T07:25:23Z)
Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文参考訳（メタデータ） (2024-10-07T05:04:13Z)
FastCLIP: A Suite of Optimization Techniques to Accelerate CLIP Training with Limited Resources [45.40926501138365]
我々は、高度な合成最適化技術に基づいて構築された一般的なCLIPトレーニングフレームワークであるFastCLIPを紹介する。我々のフレームワークは、通信オーバーヘッドを低減するための効率的な勾配低減戦略を備えている。我々は、FastCLIPと最先端のトレーニングベースラインのパフォーマンスを、異なる計算スケールでベンチマークする。
論文参考訳（メタデータ） (2024-07-01T16:37:18Z)
Optimizing Foundation Model Inference on a Many-tiny-core Open-source RISC-V Platform [13.326025546527784]
本稿では,オープンソースのマルチティニーコアRISC-Vプラットフォーム上で,トランスフォーマーモデルの最初のエンドツーエンド推論結果を示す。エンコーダのみのモデルでは、最も最適化された実装とベースラインバージョンの間の最大12.8倍のスピードアップを示す。デコーダのみのトポロジでは、非自己回帰(NAR)モードで16.1倍、オート回帰(AR)モードで最大35.6倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-05-29T17:16:59Z)
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。 MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。 Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文参考訳（メタデータ） (2023-05-30T02:24:03Z)
Practical Conformer: Optimizing size, speed and flops of Conformer for on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文参考訳（メタデータ） (2023-03-31T23:30:48Z)
Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文参考訳（メタデータ） (2022-10-16T16:21:40Z)
Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文参考訳（メタデータ） (2021-06-07T11:37:03Z)
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文参考訳（メタデータ） (2021-03-08T03:09:37Z)
Searching for Fast Model Families on Datacenter Accelerators [33.28421782921072]
高速かつ高精度なCNNモデルファミリをDC加速器上での効率的な推論のために探索する。本稿では,待ち時間と待ち時間の両方を最適化するLACS法を提案する。我々のLACSは、ネットワークの深さが画像サイズやネットワーク幅よりもはるかに速く成長することを発見した。
論文参考訳（メタデータ） (2021-02-10T18:15:40Z)
NPAS: A Compiler-aware Framework of Unified Network Pruning and Architecture Search for Beyond Real-Time Mobile Acceleration [48.25487285358816]
異なるDNNと異なるプルーニングスキームをサポートするコンパイラ自動コード生成フレームワークを提案する。また,NPAS,コンパイラ対応統合ネットワークプルーニング,アーキテクチャ検索を提案する。我々のフレームワークは,市販携帯電話でそれぞれ78.2%,75%(MobileNet-V3レベル),71%(MobileNet-V2レベル)のTop-1精度で6.7ms,5.9ms,3.9msのImageNet推論時間を実現している。
論文参考訳（メタデータ） (2020-12-01T16:03:40Z)
Towards High Performance, Portability, and Productivity: Lightweight Augmented Neural Networks for Performance Prediction [0.0]
カーネル変種ハードウェアの任意の組み合わせのための軽量な拡張ニューラルネットワークを提案する。従来のフィードフォワードニューラルネットワークよりもはるかに優れた、3%の低いMAPEが得られるのです。私たちの変分選択アプローチは、Halideの実装で、Halideの自動スケジューリングよりも最大1.7倍のスピードアップを得るために使用できます。
論文参考訳（メタデータ） (2020-03-17T02:19:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。