論文の概要: EPTQ: Enhanced Post-Training Quantization via Hessian-guided Network-wise Optimization
- arxiv url: http://arxiv.org/abs/2309.11531v2
- Date: Thu, 26 Sep 2024 08:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 14:28:50.427425
- Title: EPTQ: Enhanced Post-Training Quantization via Hessian-guided Network-wise Optimization
- Title(参考訳): EPTQ: Hessian-Guided Network-wise Optimization による学習後量子化の強化
- Authors: Ofir Gordon, Elad Cohen, Hai Victor Habi, Arnon Netzer,
- Abstract要約: 量子化は、メモリと計算リソースが限られているエッジデバイスにディープニューラルネットワークをデプロイするための重要な方法である。
本稿では,ネットワークワイド量子化最適化プロセスを用いたEPTQ(Post-Training Quantization)の高速化手法を提案する。
- 参考スコア(独自算出の注目度): 3.3998740964877463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is a key method for deploying deep neural networks on edge devices with limited memory and computation resources. Recent improvements in Post-Training Quantization (PTQ) methods were achieved by an additional local optimization process for learning the weight quantization rounding policy. However, a gap exists when employing network-wise optimization with small representative datasets. In this paper, we propose a new method for enhanced PTQ (EPTQ) that employs a network-wise quantization optimization process, which benefits from considering cross-layer dependencies during optimization. EPTQ enables network-wise optimization with a small representative dataset using a novel sample-layer attention score based on a label-free Hessian matrix upper bound. The label-free approach makes our method suitable for the PTQ scheme. We give a theoretical analysis for the said bound and use it to construct a knowledge distillation loss that guides the optimization to focus on the more sensitive layers and samples. In addition, we leverage the Hessian upper bound to improve the weight quantization parameters selection by focusing on the more sensitive elements in the weight tensors. Empirically, by employing EPTQ we achieve state-of-the-art results on various models, tasks, and datasets, including ImageNet classification, COCO object detection, and Pascal-VOC for semantic segmentation.
- Abstract(参考訳): 量子化は、メモリと計算リソースが限られているエッジデバイスにディープニューラルネットワークをデプロイするための重要な方法である。
ポストトレーニング量子化法(PTQ)の最近の改良は、重み量子化ラウンドリングポリシーを学習するための局所最適化プロセスによって達成された。
しかし、小さな代表データセットでネットワークワイズ最適化を採用する場合、ギャップが存在する。
本稿では,ネットワークワイド量子化最適化プロセスを利用するEPTQ(Advanced PTQ)の新たな手法を提案する。
EPTQは,ラベルフリーなヘッセン行列上界に基づく新しいサンプル層アテンションスコアを用いた,小さな代表データセットによるネットワークワイズ最適化を実現する。
ラベルのない手法はPTQ方式に適合する。
以上の境界について理論的解析を行い、それを用いて、より繊細な層やサンプルに焦点を合わせるよう最適化する知識蒸留損失を構築する。
さらに,重みテンソルの高感度要素に着目し,重み量子化パラメータの選択を改善するためにヘッセン上界を利用する。
EPTQを用いることで、ImageNet分類、COCOオブジェクト検出、意味的セグメンテーションのためのPascal-VOCなど、さまざまなモデル、タスク、データセットの最先端結果が得られる。
関連論文リスト
- Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Gradient-Based Post-Training Quantization: Challenging the Status Quo [23.1120983784623]
量子化は、ディープニューラルネットワークの効率的なデプロイのための重要なステップとなっている。
この研究で、このプロセスは、ある程度は、多くの変数に対して堅牢であることを示す。
我々は、より効率的でスケーラブルなGPTQメソッドを設計するための多くのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2023-08-15T09:25:11Z) - Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。
従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。
これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文 参考訳(メタデータ) (2023-08-08T21:38:02Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Quantized Proximal Averaging Network for Analysis Sparse Coding [23.080395291046408]
反復アルゴリズムをトレーニング可能なネットワークに展開し,量子化前にスパーシティの学習を容易にする。
圧縮画像回復と磁気共鳴画像再構成への応用を実証する。
論文 参考訳(メタデータ) (2021-05-13T12:05:35Z) - Progressive Encoding for Neural Optimization [92.55503085245304]
メッシュ転送におけるppe層の能力と,そのアドバンテージを,現代の表面マッピング技術と比較した。
最も重要な点は, パラメタライズフリーな手法であり, 様々な対象形状表現に適用可能であることである。
論文 参考訳(メタデータ) (2021-04-19T08:22:55Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z) - Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。
我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。
すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文 参考訳(メタデータ) (2020-10-01T18:14:11Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。