論文の概要: FantastIC4: A Hardware-Software Co-Design Approach for Efficiently
Running 4bit-Compact Multilayer Perceptrons
- arxiv url: http://arxiv.org/abs/2012.11331v1
- Date: Thu, 17 Dec 2020 19:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 11:03:29.547682
- Title: FantastIC4: A Hardware-Software Co-Design Approach for Efficiently
Running 4bit-Compact Multilayer Perceptrons
- Title(参考訳): FantastIC4: 4bit-Compact Multilayer Perceptronの効率的な動作のためのハードウェアソフトウェア共同設計手法
- Authors: Simon Wiedemann, Suhas Shivapakash, Pablo Wiedemann, Daniel Becking,
Wojciech Samek, Friedel Gerfers, Thomas Wiegand
- Abstract要約: 深層ニューラルネットワーク(DNN)の高効率な実行エンジンを得るためのソフトウェアハードウェア最適化パラダイムを提案する。
私たちのアプローチは、予測性能の高い多層パーセプトロン(MLP)の面積と電力要件を低減するための手段として、圧縮を中心にしています。
仮想超大規模FPGA XCVU440デバイス実装では総消費電力3.6Wで2.45 TOPSのスループットを達成し、22nmプロセスASICバージョンでは20.17 TOPS/Wの総電力効率を達成できることを示した。
- 参考スコア(独自算出の注目度): 19.411734658680967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing demand for deploying deep learning models to the "edge", it
is paramount to develop techniques that allow to execute state-of-the-art
models within very tight and limited resource constraints. In this work we
propose a software-hardware optimization paradigm for obtaining a highly
efficient execution engine of deep neural networks (DNNs) that are based on
fully-connected layers. Our approach is centred around compression as a means
for reducing the area as well as power requirements of, concretely, multilayer
perceptrons (MLPs) with high predictive performances. Firstly, we design a
novel hardware architecture named FantastIC4, which (1) supports the efficient
on-chip execution of multiple compact representations of fully-connected layers
and (2) minimizes the required number of multipliers for inference down to only
4 (thus the name). Moreover, in order to make the models amenable for efficient
execution on FantastIC4, we introduce a novel entropy-constrained training
method that renders them to be robust to 4bit quantization and highly
compressible in size simultaneously. The experimental results show that we can
achieve throughputs of 2.45 TOPS with a total power consumption of 3.6W on a
Virtual Ultrascale FPGA XCVU440 device implementation, and achieve a total
power efficiency of 20.17 TOPS/W on a 22nm process ASIC version. When compared
to the other state-of-the-art accelerators designed for the Google Speech
Command (GSC) dataset, FantastIC4 is better by 51$\times$ in terms of
throughput and 145$\times$ in terms of area efficiency (GOPS/W).
- Abstract(参考訳): ディープラーニングモデルを"エッジ"にデプロイする需要が高まっているため、非常に厳密で限られたリソース制約の中で最先端のモデルを実行できる技術を開発することが最重要である。
本研究では,完全接続層に基づくディープニューラルネットワーク(DNN)の高効率実行エンジンを実現するためのソフトウェアハードウェア最適化パラダイムを提案する。
提案手法は,高い予測性能を有する多層パーセプトロン(MLP)の面積削減と電力要求の低減を目的とした圧縮を中心にしている。
まず、ファンタスティック4と呼ばれる新しいハードウェアアーキテクチャを設計し、(1)完全連結層の複数のコンパクト表現の効率的なオンチップ実行をサポートし、(2)推論に必要な乗算器の数をわずか4(名前)まで最小化する。
さらに、ファンタスティック4上での効率的な実行のためにモデルを改善可能にするため、4ビット量子化に頑健で、同時に圧縮性が高い新しいエントロピー拘束トレーニング手法を提案する。
実験結果から,仮想超音速FPGA XCVU440デバイス実装において,総消費電力3.6Wの2.45TOPSのスループットを実現し,22nmプロセスASIC版では20.17TOPS/Wのスループットを実現することができた。
Google Speech Command(GSC)データセット用に設計された他の最先端アクセラレータと比較すると、スループットに関しては51$\times$、面積効率(GOPS/W)では145$\times$がよい。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - COMET: Towards Partical W4A4KV4 LLMs Serving [37.30529940231099]
量子化は、端末デバイスやクラウドデータセンターで大規模言語モデル(LLM)を提供するオーバーヘッドを低減するための圧縮技術である。
本稿では,ほとんどのアクティベーションを4ビットに圧縮し,精度損失を無視できる新しい混合精度量子化アルゴリズム(FMPQ)を提案する。
我々は、最適化されたW4Axカーネルを推論フレームワークCOMETに統合し、人気のあるLLMをサポートするための効率的な管理を提供する。
論文 参考訳(メタデータ) (2024-10-16T02:16:53Z) - Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - REED: Chiplet-Based Accelerator for Fully Homomorphic Encryption [4.713756093611972]
本稿では,従来のモノリシック設計の限界を克服する,マルチチップベースのFHEアクセラレータREEDについて紹介する。
その結果、REED 2.5Dマイクロプロセッサはチップ面積96.7 mm$2$、平均電力49.4Wを7nm技術で消費していることがわかった。
論文 参考訳(メタデータ) (2023-08-05T14:04:39Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。