論文の概要: FAMES: Fast Approximate Multiplier Substitution for Mixed-Precision Quantized DNNs--Down to 2 Bits!
- arxiv url: http://arxiv.org/abs/2411.18055v1
- Date: Wed, 27 Nov 2024 04:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:25:18.052829
- Title: FAMES: Fast Approximate Multiplier Substitution for Mixed-Precision Quantized DNNs--Down to 2 Bits!
- Title(参考訳): FAMES:Mixed-Precision Quantized DNNsのための高速近似乗算器
- Authors: Yi Ren, Ruge Xu, Xinfei Guo, Weikang Qian,
- Abstract要約: FAMESは混合精度DNNの高速近似乗算器置換法である。
我々の実験は、ビット幅が2ビット以下の最先端の混合精度量子化モデルに対して、平均28.67%のエネルギー削減を実証した。
- 参考スコア(独自算出の注目度): 10.32941780757481
- License:
- Abstract: A widely-used technique in designing energy-efficient deep neural network (DNN) accelerators is quantization. Recent progress in this direction has reduced the bitwidths used in DNN down to 2. Meanwhile, many prior works apply approximate multipliers (AppMuls) in designing DNN accelerators to lower their energy consumption. Unfortunately, these works still assume a bitwidth much larger than 2, which falls far behind the state-of-the-art in quantization area and even challenges the meaningfulness of applying AppMuls in DNN accelerators, since a high-bitwidth AppMul consumes much more energy than a low-bitwidth exact multiplier! Thus, an important problem to study is: Can approximate multipliers be effectively applied to quantized DNN models with very low bitwidths? In this work, we give an affirmative answer to this question and present a systematic solution that achieves the answer: FAMES, a fast approximate multiplier substitution method for mixed-precision DNNs. Our experiments demonstrate an average 28.67% energy reduction on state-of-the-art mixed-precision quantized models with bitwidths as low as 2 bits and accuracy losses kept under 1%. Additionally, our approach is up to 300x faster than previous genetic algorithm-based methods.
- Abstract(参考訳): エネルギー効率の高いディープニューラルネットワーク(DNN)アクセラレータを設計するための広く使われている技術は量子化である。
この方向の最近の進歩により、DNNで使用されるビット幅は2。
一方、多くの先行研究はDNN加速器の設計において近似乗数(AppMuls)を適用してエネルギー消費量を削減した。
残念なことに、これらの作業は依然として2よりずっと大きいと仮定しており、これは量子化分野における最先端の分野よりもはるかに遅れており、DNNアクセラレーターにAppMulを適用する意義にさえ挑戦している。
非常に低ビット幅の量子化DNNモデルに近似乗算器を効果的に適用できるか?
本研究では,この疑問に対して肯定的な回答を与え,その答えを実現する体系的解を与える。 FAMES, 混合精度DNNの高速近似乗算器置換法。
実験では、ビット幅が2ビット以下の最先端混合精度量子化モデルに対して平均28.67%のエネルギー削減効果を示し、精度損失は1%以下である。
さらに、我々のアプローチは、従来の遺伝的アルゴリズムベースの手法よりも最大300倍高速です。
関連論文リスト
- Post-Training Quantization for Energy Efficient Realization of Deep
Neural Networks [0.0]
エッジデバイス上で生成されたデータに近いディープニューラルネットワーク(DNN)をデプロイする際の最大の課題は、そのサイズ、すなわちメモリフットプリントと計算の複雑さである。
本稿では,再学習を必要とせず,学習後の量子化フローを提案する。
ImageNetのTop-1精度は2.2%向上した。
論文 参考訳(メタデータ) (2022-10-14T15:43:57Z) - Weightless Neural Networks for Efficient Edge Inference [1.7882696915798877]
ウェイトレスニューラルネットワーク(WNN)は、テーブルルックアップを使用して推論を行う機械学習モデルのクラスである。
本稿では,WNN アーキテクチャ BTHOWeN を提案する。
BTHOWeNは、より優れたレイテンシとエネルギー効率を提供することで、大規模で成長するエッジコンピューティングセクターをターゲットにしている。
論文 参考訳(メタデータ) (2022-03-03T01:46:05Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Positive/Negative Approximate Multipliers for DNN Accelerators [3.1921317895626493]
本稿では,重みを近似乗算器の適切なモードにマッピングするフィルタ指向近似法を提案する。
提案手法では,4つの異なるデータセット上で平均7つのNNで18.33%のエネルギーゲインを達成し,最大精度の低下は1%に留まった。
論文 参考訳(メタデータ) (2021-07-20T09:36:24Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - ShiftAddNet: A Hardware-Inspired Deep Network [87.18216601210763]
ShiftAddNetはエネルギー効率のよい乗算レスディープニューラルネットワークである。
エネルギー効率のよい推論とトレーニングの両方につながるが、表現能力は損なわれない。
ShiftAddNetは、DNNのトレーニングと推論において、80%以上のハードウェア量子化されたエネルギーコストを積極的に削減し、同等またはより良い精度を提供する。
論文 参考訳(メタデータ) (2020-10-24T05:09:14Z) - FTBNN: Rethinking Non-linearity for 1-bit CNNs and Going Beyond [23.5996182207431]
本稿では,二項化畳み込み過程が,その誤差を最小限に抑えるために線形性を増大させ,BNNの識別能力を損なうことを示す。
我々は、その矛盾を修正するために、適切な非線形モジュールを再検討し、調整することで、最先端のパフォーマンスを実現する強力なベースラインに繋がる。
論文 参考訳(メタデータ) (2020-10-19T08:11:48Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - Bit Error Robustness for Energy-Efficient DNN Accelerators [93.58572811484022]
本稿では、ロバストな固定点量子化、重み切り、ランダムビット誤り訓練(RandBET)の組み合わせにより、ランダムビット誤りに対するロバスト性を向上することを示す。
これは低電圧動作と低精度量子化の両方から高エネルギーの節約につながる。
論文 参考訳(メタデータ) (2020-06-24T18:23:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。