論文の概要: Efficiera Residual Networks: Hardware-Friendly Fully Binary Weight with 2-bit Activation Model Achieves Practical ImageNet Accuracy
- arxiv url: http://arxiv.org/abs/2410.11553v1
- Date: Tue, 15 Oct 2024 12:43:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:03:31.052531
- Title: Efficiera Residual Networks: Hardware-Friendly Fully Binary Weight with 2-bit Activation Model Achieves Practical ImageNet Accuracy
- Title(参考訳): Efficiera Residual Networks: 2ビットアクティベーションモデルによるハードウェアフレンドリーな完全バイナリウェイトが実用的なイメージネット精度を実現する
- Authors: Shuntaro Takahashi, Takuya Wakisaka, Hiroyuki Tokunaga,
- Abstract要約: 低リソースエッジデバイス向けに最適化されたモデルであるEfficiera Residual Networks (ERNs)を紹介する。
ERNは、初期層と出力層を含む全ての重みと2ビットのアクティベーションを含む完全な超低ビット量子化を実現する。
ERNは印象的な推論時間を示し、最小のモデルで300FPS、コスト効率のFPGAデバイスで最大のモデルで60FPSに達する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The edge-device environment imposes severe resource limitations, encompassing computation costs, hardware resource usage, and energy consumption for deploying deep neural network models. Ultra-low-bit quantization and hardware accelerators have been explored as promising approaches to address these challenges. Ultra-low-bit quantization significantly reduces the model size and the computational cost. Despite progress so far, many competitive ultra-low-bit models still partially rely on float or non-ultra-low-bit quantized computation such as the input and output layer. We introduce Efficiera Residual Networks (ERNs), a model optimized for low-resource edge devices. ERNs achieve full ultra-low-bit quantization, with all weights, including the initial and output layers, being binary, and activations set at 2 bits. We introduce the shared constant scaling factor technique to enable integer-valued computation in residual connections, allowing our model to operate without float values until the final convolution layer. Demonstrating competitiveness, ERNs achieve an ImageNet top-1 accuracy of 72.5pt with a ResNet50-compatible architecture and 63.6pt with a model size less than 1MB. Moreover, ERNs exhibit impressive inference times, reaching 300FPS with the smallest model and 60FPS with the largest model on a cost-efficient FPGA device.
- Abstract(参考訳): エッジデバイス環境は、計算コスト、ハードウェアリソース使用量、ディープニューラルネットワークモデルをデプロイするためのエネルギー消費など、厳しいリソース制限を課している。
超低ビット量子化とハードウェアアクセラレータは、これらの課題に対処するための有望なアプローチとして検討されてきた。
超低ビット量子化はモデルサイズと計算コストを大幅に削減する。
これまでのところ、多くの競争力のある超低ビットモデルは、入力層や出力層のような浮動小数点演算や非超低ビット量子化計算に部分的に依存している。
低リソースエッジデバイス向けに最適化されたモデルであるEfficiera Residual Networks (ERNs)を紹介する。
ERNは、初期層と出力層を含む全ての重みと2ビットのアクティベーションを含む完全な超低ビット量子化を実現する。
我々は,残差接続における整数値計算を可能にするために,共有定数スケーリング係数法を導入し,最終畳み込み層までフロート値なしでモデルが動作できるようにする。
ERNは競争力を示すために、ResNet50互換アーキテクチャで72.5pt、モデルサイズが1MB未満の63.6ptのImageNet Top-1精度を実現している。
さらに、ERNは、最小のモデルで300FPS、コスト効率のFPGAデバイスで最大のモデルで60FPSに達する、印象的な推論時間を示す。
関連論文リスト
- SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Energy Efficient Hardware Acceleration of Neural Networks with
Power-of-Two Quantisation [0.0]
我々は、Zynq UltraScale + MPSoC ZCU104 FPGA上に実装されたPoT重みを持つハードウェアニューラルネットワークアクセラレーターが、均一量子化バージョンよりも少なくとも1.4x$のエネルギー効率を持つことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:33:40Z) - CoNLoCNN: Exploiting Correlation and Non-Uniform Quantization for
Energy-Efficient Low-precision Deep Convolutional Neural Networks [13.520972975766313]
本研究では、重みの非一様量子化を利用して、エネルギー効率の低い深部畳み込みニューラルネットワーク推論を可能にする枠組みを提案する。
また、重みのビット幅を圧縮する新しいデータ表現形式Encoded Low-Precision Binary Signed Digitを提案する。
論文 参考訳(メタデータ) (2022-07-31T01:34:56Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Power-of-Two Quantization for Low Bitwidth and Hardware Compliant Neural
Networks [1.398698203665363]
本稿では,低ビット精度を利用する非線形量子化手法について検討する。
我々は,低ビット幅のPower-of-Two(PoT)ネットワークのトレーニングを可能にするQATアルゴリズムを開発した。
同時に、PoT量子化はニューラルネットワークの計算複雑性を大幅に減らす。
論文 参考訳(メタデータ) (2022-03-09T19:57:14Z) - CREW: Computation Reuse and Efficient Weight Storage for
Hardware-accelerated MLPs and RNNs [1.0635248457021496]
本稿では,ReuseとEfficient Weight Storage機構を実装したハードウェアアクセラレータCREWを紹介する。
CREWは乗算数を大幅に削減し、モデルメモリフットプリントとメモリ帯域幅使用量を大幅に削減する。
CREWは平均2.61倍のスピードアップと2.42倍の省エネを提供する。
論文 参考訳(メタデータ) (2021-07-20T11:10:54Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z) - Lightweight Residual Densely Connected Convolutional Neural Network [18.310331378001397]
畳み込みニューラルネットワークの深い監督, 効率的な勾配流, 特徴再利用能力を保証するために, 軽量な高密度連結ブロックを提案する。
提案手法は,特別なハードウェア・ソフトウェア機器を使わずに,トレーニングと推論のコストを低減させる。
論文 参考訳(メタデータ) (2020-01-02T17:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。