論文の概要: UWC: Unit-wise Calibration Towards Rapid Network Compression
- arxiv url: http://arxiv.org/abs/2201.06376v1
- Date: Mon, 17 Jan 2022 12:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 16:18:31.444876
- Title: UWC: Unit-wise Calibration Towards Rapid Network Compression
- Title(参考訳): UWC: 高速ネットワーク圧縮に向けたユニットワイド校正
- Authors: Chen Lin, Zheyang Li, Bo Peng, Haoji Hu, Wenming Tan, Ye Ren, Shiliang
Pu
- Abstract要約: 学習後量子化法は,高性能な畳み込みニューラルネットワーク(CNN)量子化を実現する。
従来のPTQ手法は通常、層ごとのパラメータキャリブレーションによって圧縮誤差を低減する。
本研究は, 単位値誤差の2次テイラー級数展開の観測に基づく単位値特徴再構成アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 36.74654186255557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a post-training quantization~(PTQ) method achieving
highly efficient Convolutional Neural Network~ (CNN) quantization with high
performance. Previous PTQ methods usually reduce compression error via
performing layer-by-layer parameters calibration. However, with lower
representational ability of extremely compressed parameters (e.g., the
bit-width goes less than 4), it is hard to eliminate all the layer-wise errors.
This work addresses this issue via proposing a unit-wise feature reconstruction
algorithm based on an observation of second order Taylor series expansion of
the unit-wise error. It indicates that leveraging the interaction between
adjacent layers' parameters could compensate layer-wise errors better. In this
paper, we define several adjacent layers as a Basic-Unit, and present a
unit-wise post-training algorithm which can minimize quantization error. This
method achieves near-original accuracy on ImageNet and COCO when quantizing
FP32 models to INT4 and INT3.
- Abstract(参考訳): 本稿では,高効率な畳み込みニューラルネットワーク(CNN)量子化を実現するための学習後量子化〜(PTQ)手法を提案する。
従来のPTQ手法は通常、層ごとのパラメータキャリブレーションによって圧縮誤差を低減する。
しかし、非常に圧縮されたパラメータ(例えばビット幅が4以下)の表現能力が低いため、すべてのレイヤワイズエラーを除去することは困難である。
本研究は,ユニットワイズ誤差の2次テイラー級数展開の観測に基づいて,ユニットワイズ特徴復元アルゴリズムを提案することで,この問題に対処した。
隣接するレイヤのパラメータ間のインタラクションを活用することで、レイヤ毎のエラーを補うことができる。
本稿では,隣接する複数の層を基本ユニットとして定義し,量子化誤差を最小化できるユニットワイド後学習アルゴリズムを提案する。
この方法は、FP32モデルをINT4とINT3に量子化する際に、ImageNetとCOCOでほぼオリジナルに近い精度を達成する。
関連論文リスト
- Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Differential error feedback for communication-efficient decentralized learning [48.924131251745266]
本稿では,差分量子化と誤りフィードバックをブレンドする分散通信効率学習手法を提案する。
その結果,平均二乗誤差と平均ビットレートの両面において通信効率が安定であることが示唆された。
その結果、小さなステップサイズで有限ビットの場合には、圧縮がない場合に達成可能な性能が得られることが判明した。
論文 参考訳(メタデータ) (2024-06-26T15:11:26Z) - Minimize Quantization Output Error with Bias Compensation [35.43358597502087]
量子化は、ディープニューラルネットワーク(DNN)のメモリ使用量と計算強度を低減する有望な方法である
本稿では,出力誤差を定量化せずに精度を向上する手法を提案する。
視覚モデルと大規模言語モデルの実験を行う。
論文 参考訳(メタデータ) (2024-04-02T12:29:31Z) - COMQ: A Backpropagation-Free Algorithm for Post-Training Quantization [8.214857267270807]
ポストトレーニング量子化(PTQ)は、大規模なニューラルネットワークを圧縮するための実践的なアプローチとして登場した。
本稿では,階層的再構成誤りの座標最小化を逐次行う,COMQと呼ばれる革新的なPTQアルゴリズムを提案する。
COMQは、4ビットビジョン変換器を量子化し、Top-1の精度で1%未満の損失を負う。
論文 参考訳(メタデータ) (2024-03-11T20:04:03Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - Mixed-Precision Quantization with Cross-Layer Dependencies [6.338965603383983]
混合精度量子化(MPQ)は、様々なビット幅を層に割り当て、精度と効率のトレードオフを最適化する。
既存の手法は、異なる層における量子化誤差が独立に作用すると仮定することでMPQ問題を単純化する。
この仮定は、量子化された深層ニューラルネットワークの真の振舞いを反映していないことを示す。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - CADyQ: Content-Aware Dynamic Quantization for Image Super-Resolution [55.50793823060282]
本稿では,画像超解像(SR)ネットワークのための新しいコンテント・アウェア・ダイナミック量子化(CADyQ)手法を提案する。
CADyQは、入力画像のローカル内容に基づいて、局所領域と層に最適なビットを適応的に割り当てる。
パイプラインは様々なSRネットワークでテストされ、いくつかの標準ベンチマークで評価されている。
論文 参考訳(メタデータ) (2022-07-21T07:50:50Z) - Low-rank Tensor Decomposition for Compression of Convolutional Neural
Networks Using Funnel Regularization [1.8579693774597708]
低ランクテンソル分解を用いた事前学習ネットワークを圧縮するモデル削減手法を提案する。
圧縮中の重要でない要因を抑えるために, ファンネル関数と呼ばれる新しい正規化法を提案する。
ImageNet2012のResNet18では、GMACの精度は0.7%に過ぎず、Top-1の精度はわずかに低下する。
論文 参考訳(メタデータ) (2021-12-07T13:41:51Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Compression of descriptor models for mobile applications [26.498907514590165]
深層ニューラルネットワークにおける計算コスト,モデルサイズ,マッチング精度のトレードオフを評価する。
我々は、深度的に分離可能な層を用いることで、学習重量の顕著な冗長性を観察する。
本稿では,標準的な畳み込みと奥行き分離可能な畳み込みを補間する手段を提供する,畳み込み-Depthwise-Pointwise(CDP)層を提案する。
論文 参考訳(メタデータ) (2020-01-09T17:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。