論文の概要: FantastIC4: A Hardware-Software Co-Design Approach for Efficiently
Running 4bit-Compact Multilayer Perceptrons
- arxiv url: http://arxiv.org/abs/2012.11331v1
- Date: Thu, 17 Dec 2020 19:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 11:03:29.547682
- Title: FantastIC4: A Hardware-Software Co-Design Approach for Efficiently
Running 4bit-Compact Multilayer Perceptrons
- Title(参考訳): FantastIC4: 4bit-Compact Multilayer Perceptronの効率的な動作のためのハードウェアソフトウェア共同設計手法
- Authors: Simon Wiedemann, Suhas Shivapakash, Pablo Wiedemann, Daniel Becking,
Wojciech Samek, Friedel Gerfers, Thomas Wiegand
- Abstract要約: 深層ニューラルネットワーク(DNN)の高効率な実行エンジンを得るためのソフトウェアハードウェア最適化パラダイムを提案する。
私たちのアプローチは、予測性能の高い多層パーセプトロン(MLP)の面積と電力要件を低減するための手段として、圧縮を中心にしています。
仮想超大規模FPGA XCVU440デバイス実装では総消費電力3.6Wで2.45 TOPSのスループットを達成し、22nmプロセスASICバージョンでは20.17 TOPS/Wの総電力効率を達成できることを示した。
- 参考スコア(独自算出の注目度): 19.411734658680967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing demand for deploying deep learning models to the "edge", it
is paramount to develop techniques that allow to execute state-of-the-art
models within very tight and limited resource constraints. In this work we
propose a software-hardware optimization paradigm for obtaining a highly
efficient execution engine of deep neural networks (DNNs) that are based on
fully-connected layers. Our approach is centred around compression as a means
for reducing the area as well as power requirements of, concretely, multilayer
perceptrons (MLPs) with high predictive performances. Firstly, we design a
novel hardware architecture named FantastIC4, which (1) supports the efficient
on-chip execution of multiple compact representations of fully-connected layers
and (2) minimizes the required number of multipliers for inference down to only
4 (thus the name). Moreover, in order to make the models amenable for efficient
execution on FantastIC4, we introduce a novel entropy-constrained training
method that renders them to be robust to 4bit quantization and highly
compressible in size simultaneously. The experimental results show that we can
achieve throughputs of 2.45 TOPS with a total power consumption of 3.6W on a
Virtual Ultrascale FPGA XCVU440 device implementation, and achieve a total
power efficiency of 20.17 TOPS/W on a 22nm process ASIC version. When compared
to the other state-of-the-art accelerators designed for the Google Speech
Command (GSC) dataset, FantastIC4 is better by 51$\times$ in terms of
throughput and 145$\times$ in terms of area efficiency (GOPS/W).
- Abstract(参考訳): ディープラーニングモデルを"エッジ"にデプロイする需要が高まっているため、非常に厳密で限られたリソース制約の中で最先端のモデルを実行できる技術を開発することが最重要である。
本研究では,完全接続層に基づくディープニューラルネットワーク(DNN)の高効率実行エンジンを実現するためのソフトウェアハードウェア最適化パラダイムを提案する。
提案手法は,高い予測性能を有する多層パーセプトロン(MLP)の面積削減と電力要求の低減を目的とした圧縮を中心にしている。
まず、ファンタスティック4と呼ばれる新しいハードウェアアーキテクチャを設計し、(1)完全連結層の複数のコンパクト表現の効率的なオンチップ実行をサポートし、(2)推論に必要な乗算器の数をわずか4(名前)まで最小化する。
さらに、ファンタスティック4上での効率的な実行のためにモデルを改善可能にするため、4ビット量子化に頑健で、同時に圧縮性が高い新しいエントロピー拘束トレーニング手法を提案する。
実験結果から,仮想超音速FPGA XCVU440デバイス実装において,総消費電力3.6Wの2.45TOPSのスループットを実現し,22nmプロセスASIC版では20.17TOPS/Wのスループットを実現することができた。
Google Speech Command(GSC)データセット用に設計された他の最先端アクセラレータと比較すると、スループットに関しては51$\times$、面積効率(GOPS/W)では145$\times$がよい。
関連論文リスト
- QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - ITA: An Energy-Efficient Attention and Softmax Accelerator for Quantized
Transformers [13.177523799771635]
トランスフォーマーネットワークは、自然言語処理タスクの最先端のアプローチとして登場した。
トランスモデルの効率的なハードウェアアクセラレーションは、高い演算強度、大きなメモリ要件、複雑なデータフロー依存性のために、新たな課題をもたらす。
組込みシステムにおける効率的な推論を目的としたトランスフォーマーおよび関連モデルのための新しいアクセラレータアーキテクチャ ITA を提案する。
論文 参考訳(メタデータ) (2023-07-07T10:05:38Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Understanding INT4 Quantization for Transformer Models: Latency Speedup,
Composability, and Failure Cases [24.34969722921442]
W4A4量子化は、エンコーダのみのモデルとエンコーダデコーダのみのモデルに対して、無視可能な精度劣化を起こさないが、デコーダのみのモデルでは相当な精度低下を引き起こすことを示す。
我々は、異なる量子化戦略をサポートする高度に最適化されたエンドツーエンドのW4A4エンコーダ推論パイプラインを開発した。
論文 参考訳(メタデータ) (2023-01-27T22:44:18Z) - Energy Efficient Hardware Acceleration of Neural Networks with
Power-of-Two Quantisation [0.0]
我々は、Zynq UltraScale + MPSoC ZCU104 FPGA上に実装されたPoT重みを持つハードウェアニューラルネットワークアクセラレーターが、均一量子化バージョンよりも少なくとも1.4x$のエネルギー効率を持つことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:33:40Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z) - PERMDNN: Efficient Compressed DNN Architecture with Permuted Diagonal
Matrices [35.90103072918056]
ディープニューラルネットワーク(DNN)は、最も重要で人気のある人工知能(AI)技術として登場した。
モデルサイズの成長は、基盤となるコンピューティングプラットフォームにとって重要なエネルギー効率の課題である。
本稿では、ハードウェアフレンドリーな構造化DNNモデルの生成と実行のための新しいアプローチであるPermDNNを提案する。
論文 参考訳(メタデータ) (2020-04-23T02:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。