論文の概要: Low-Precision Mixed-Computation Models for Inference on Edge
- arxiv url: http://arxiv.org/abs/2312.02210v1
- Date: Sun, 3 Dec 2023 04:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 18:23:52.750170
- Title: Low-Precision Mixed-Computation Models for Inference on Edge
- Title(参考訳): エッジ上の推論のための低精度混合計算モデル
- Authors: Seyedarmin Azizi, Mahdi Nazemi, Mehdi Kamal, Massoud Pedram
- Abstract要約: 本稿では,エッジアプリケーションのための混合計算ニューラルネットワーク処理手法を提案する。
低精度(低幅)ポジットと低精度固定点(FixP)数システムを備えている。
混合計算の精度はFixPよりも約1.5%高く、エネルギーオーバーヘッドは0.19%である。
- 参考スコア(独自算出の注目度): 5.0708247238537165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a mixed-computation neural network processing approach
for edge applications that incorporates low-precision (low-width) Posit and
low-precision fixed point (FixP) number systems. This mixed-computation
approach employs 4-bit Posit (Posit4), which has higher precision around zero,
for representing weights with high sensitivity, while it uses 4-bit FixP
(FixP4) for representing other weights. A heuristic for analyzing the
importance and the quantization error of the weights is presented to assign the
proper number system to different weights. Additionally, a gradient
approximation for Posit representation is introduced to improve the quality of
weight updates in the backpropagation process. Due to the high energy
consumption of the fully Posit-based computations, neural network operations
are carried out in FixP or Posit/FixP. An efficient hardware implementation of
a MAC operation with a first Posit operand and FixP for a second operand and
accumulator is presented. The efficacy of the proposed low-precision
mixed-computation approach is extensively assessed on vision and language
models. The results show that, on average, the accuracy of the
mixed-computation is about 1.5% higher than that of FixP with a cost of 0.19%
energy overhead.
- Abstract(参考訳): 本稿では,低精度(低幅)と低精度固定点(FixP)を組み込んだエッジアプリケーションのための混合計算ニューラルネットワーク処理手法を提案する。
この混合計算法は4ビットポジット(posit4)を使用し、0付近の精度が高く、感度の高い重みを表すが、他の重みを表すのに4ビットfixp(fixp4)を用いる。
適切な数体系を異なる重みに割り当てるために,重みの重要性と量化誤差を分析するヒューリスティックを提案する。
さらに,後方伝播過程における重み更新の質を向上させるため,Posit表現の勾配近似を導入する。
完全Positベースの計算の高エネルギー消費のため、ニューラルネットワーク操作はFixPまたはPosit/FixPで行われる。
第1のPositオペランドと第2のオペランドおよびアキュムレータのためのFixPによるMAC操作の効率的なハードウェア実装を示す。
提案手法の有効性は,視覚モデルと言語モデルに基づいて広く評価されている。
その結果、平均して混合計算の精度はフィップより約1.5%高く、エネルギーオーバーヘッドは0.19%であった。
関連論文リスト
- Neural Precision Polarization: Simplifying Neural Network Inference with Dual-Level Precision [0.4124847249415279]
浮動小数点モデルはクラウドでトレーニングされ、エッジデバイスにダウンロードされる。
ネットワークの重みとアクティベーションは、NF4やINT8のようなエッジデバイスの望ましいレベルを満たすために直接量子化される。
本稿では,Watt MAC の効率と信頼性について,約464 TOPS のニューラル精度の偏極が可能であることを示す。
論文 参考訳(メタデータ) (2024-11-06T16:02:55Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Improving Convergence for Quantum Variational Classifiers using Weight
Re-Mapping [60.086820254217336]
近年、量子機械学習は変分量子回路(VQC)の利用が大幅に増加した。
重みを2pi$の間隔に不明瞭にマッピングするために、VQCの重み再マッピングを導入する。
修正されていないウェイトを用いて、Wineデータセットの重量再マッピングにより、テスト精度が10%向上したことを実証した。
論文 参考訳(メタデータ) (2022-12-22T13:23:19Z) - Automatic Network Adaptation for Ultra-Low Uniform-Precision
Quantization [6.1664476076961146]
一様精度ニューラルネットワーク量子化は、高計算能力のために高密度に充填された演算ユニットを単純化したため、人気を集めている。
層間の量子化誤差の影響に対して不均一な感度を無視し、結果として準最適推論をもたらす。
本研究は,超低精度量子化による精度劣化を軽減するために,ニューラルネットワーク構造を調整するニューラルチャネル拡張と呼ばれる新しいニューラルアーキテクチャ探索を提案する。
論文 参考訳(メタデータ) (2022-12-21T09:41:25Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - LG-LSQ: Learned Gradient Linear Symmetric Quantization [3.6816597150770387]
精度の低いディープニューラルネットワークは、メモリスペースとアクセルパワーのコストの観点から利点がある。
量子化アルゴリズムに関連する主な課題は、低ビット幅での精度を維持することである。
低ビット幅での重みと活性化関数の定量化手法として、学習された勾配線形量子化(LG-LSQ)を提案する。
論文 参考訳(メタデータ) (2022-02-18T03:38:12Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - A2P-MANN: Adaptive Attention Inference Hops Pruned Memory-Augmented
Neural Networks [3.682712058535653]
A2P-MANNと呼ばれるオンラインアダプティブアプローチを提案し、メモリ拡張ニューラルネットワークで必要な注意推論ホップ数を制限する。
この技術は、正しい解を抽出する際に不要な大量の計算を除去する。
この手法の有効性は,bAbIデータセットの質問応答(QA)タスクを用いて評価する。
論文 参考訳(メタデータ) (2021-01-24T12:02:12Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。