論文の概要: EPTQ: Enhanced Post-Training Quantization via Label-Free Hessian
- arxiv url: http://arxiv.org/abs/2309.11531v1
- Date: Wed, 20 Sep 2023 10:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 18:13:39.818276
- Title: EPTQ: Enhanced Post-Training Quantization via Label-Free Hessian
- Title(参考訳): EPTQ: Label-free Hessianによるトレーニング後の量子化の強化
- Authors: Ofir Gordon, Hai Victor Habi and Arnon Netzer
- Abstract要約: ディープニューラルネットワーク(DNN)の量子化は、エンドユーザーデバイスにそのようなネットワークを埋め込む上で重要な要素となっている。
EPTQと呼ばれるポストトレーニング量子化の高速化手法を提案する。
- 参考スコア(独自算出の注目度): 4.174296652683762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization of deep neural networks (DNN) has become a key element in the
efforts of embedding such networks on end-user devices. However, current
quantization methods usually suffer from costly accuracy degradation. In this
paper, we propose a new method for Enhanced Post Training Quantization named
EPTQ. The method is based on knowledge distillation with an adaptive weighting
of layers. In addition, we introduce a new label-free technique for
approximating the Hessian trace of the task loss, named Label-Free Hessian.
This technique removes the requirement of a labeled dataset for computing the
Hessian. The adaptive knowledge distillation uses the Label-Free Hessian
technique to give greater attention to the sensitive parts of the model while
performing the optimization. Empirically, by employing EPTQ we achieve
state-of-the-art results on a wide variety of models, tasks, and datasets,
including ImageNet classification, COCO object detection, and Pascal-VOC for
semantic segmentation. We demonstrate the performance and compatibility of EPTQ
on an extended set of architectures, including CNNs, Transformers, hybrid, and
MLP-only models.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の量子化は、エンドユーザーデバイスにそのようなネットワークを埋め込む上で重要な要素となっている。
しかし、現在の量子化法は通常、コストのかかる精度劣化に悩まされる。
本稿では,EPTQと呼ばれるポストトレーニング量子化の高速化手法を提案する。
この方法は、層を適応重み付けした知識蒸留に基づいている。
さらに,タスク損失のヘッセン的トレースを近似する新しいラベルフリー手法である Label-Free Hessian を導入する。
このテクニックは、Hessianを計算するためのラベル付きデータセットの必要性を取り除く。
適応的な知識蒸留は、最適化を行いながらモデルの繊細な部分に注意を向けるためにラベルフリー・ヘッセン法を用いる。
EPTQを用いることで、ImageNet分類、COCOオブジェクト検出、意味的セグメンテーションのためのPascal-VOCなど、さまざまなモデル、タスク、データセットの最先端結果が得られます。
我々は,CNN,トランスフォーマー,ハイブリッド,MPPのみのモデルを含む拡張アーキテクチャ上でのEPTQの性能と互換性を実証する。
関連論文リスト
- Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Gradient-Based Post-Training Quantization: Challenging the Status Quo [23.1120983784623]
量子化は、ディープニューラルネットワークの効率的なデプロイのための重要なステップとなっている。
この研究で、このプロセスは、ある程度は、多くの変数に対して堅牢であることを示す。
我々は、より効率的でスケーラブルなGPTQメソッドを設計するための多くのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2023-08-15T09:25:11Z) - Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。
従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。
これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文 参考訳(メタデータ) (2023-08-08T21:38:02Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Quantized Proximal Averaging Network for Analysis Sparse Coding [23.080395291046408]
反復アルゴリズムをトレーニング可能なネットワークに展開し,量子化前にスパーシティの学習を容易にする。
圧縮画像回復と磁気共鳴画像再構成への応用を実証する。
論文 参考訳(メタデータ) (2021-05-13T12:05:35Z) - Progressive Encoding for Neural Optimization [92.55503085245304]
メッシュ転送におけるppe層の能力と,そのアドバンテージを,現代の表面マッピング技術と比較した。
最も重要な点は, パラメタライズフリーな手法であり, 様々な対象形状表現に適用可能であることである。
論文 参考訳(メタデータ) (2021-04-19T08:22:55Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z) - Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。
我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。
すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文 参考訳(メタデータ) (2020-10-01T18:14:11Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。