Fugu-MT 論文翻訳(概要): EPTQ: Enhanced Post-Training Quantization via Label-Free Hessian

論文の概要: EPTQ: Enhanced Post-Training Quantization via Label-Free Hessian

arxiv url: http://arxiv.org/abs/2309.11531v1
Date: Wed, 20 Sep 2023 10:50:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-22 18:13:39.818276
Title: EPTQ: Enhanced Post-Training Quantization via Label-Free Hessian
Title（参考訳）: EPTQ: Label-free Hessianによるトレーニング後の量子化の強化
Authors: Ofir Gordon, Hai Victor Habi and Arnon Netzer
Abstract要約: ディープニューラルネットワーク(DNN)の量子化は、エンドユーザーデバイスにそのようなネットワークを埋め込む上で重要な要素となっている。 EPTQと呼ばれるポストトレーニング量子化の高速化手法を提案する。
参考スコア（独自算出の注目度）: 4.174296652683762
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Quantization of deep neural networks (DNN) has become a key element in the efforts of embedding such networks on end-user devices. However, current quantization methods usually suffer from costly accuracy degradation. In this paper, we propose a new method for Enhanced Post Training Quantization named EPTQ. The method is based on knowledge distillation with an adaptive weighting of layers. In addition, we introduce a new label-free technique for approximating the Hessian trace of the task loss, named Label-Free Hessian. This technique removes the requirement of a labeled dataset for computing the Hessian. The adaptive knowledge distillation uses the Label-Free Hessian technique to give greater attention to the sensitive parts of the model while performing the optimization. Empirically, by employing EPTQ we achieve state-of-the-art results on a wide variety of models, tasks, and datasets, including ImageNet classification, COCO object detection, and Pascal-VOC for semantic segmentation. We demonstrate the performance and compatibility of EPTQ on an extended set of architectures, including CNNs, Transformers, hybrid, and MLP-only models.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)の量子化は、エンドユーザーデバイスにそのようなネットワークを埋め込む上で重要な要素となっている。しかし、現在の量子化法は通常、コストのかかる精度劣化に悩まされる。本稿では,EPTQと呼ばれるポストトレーニング量子化の高速化手法を提案する。この方法は、層を適応重み付けした知識蒸留に基づいている。さらに,タスク損失のヘッセン的トレースを近似する新しいラベルフリー手法である Label-Free Hessian を導入する。このテクニックは、Hessianを計算するためのラベル付きデータセットの必要性を取り除く。適応的な知識蒸留は、最適化を行いながらモデルの繊細な部分に注意を向けるためにラベルフリー・ヘッセン法を用いる。 EPTQを用いることで、ImageNet分類、COCOオブジェクト検出、意味的セグメンテーションのためのPascal-VOCなど、さまざまなモデル、タスク、データセットの最先端結果が得られます。我々は,CNN,トランスフォーマー,ハイブリッド,MPPのみのモデルを含む拡張アーキテクチャ上でのEPTQの性能と互換性を実証する。

関連論文リスト

FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文参考訳（メタデータ） (2025-06-13T07:57:38Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Mixed-Precision Graph Neural Quantization for Low Bit Large Language Models [13.709080134204326]
トレーニング後の量子化(PTQ)は、リソース制限設定内に大規模な言語モデルをデプロイする上で重要な要素である。本稿では,グラフニューラルネットワーク (GNN) モジュールを用いて重み間の依存関係をキャプチャする混合精度グラフニューラルPTQ (MG-PTQ) 手法を提案する。本手法は, 目標重み間の依存性をより効果的に把握し, 重みの重要性をより正確に評価する。
論文参考訳（メタデータ） (2025-01-30T05:39:01Z)
BoA: Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
トレーニング後の量子化(PTQ)は、リソース制約のあるデバイスに大規模言語モデル(LLM)をデプロイするための有望なソリューションである。階層間依存関係を考慮し整数重みを最適化する新しいバックプロパゲーションフリーPTQアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-19T11:53:21Z)
Post-Training Quantization for Re-parameterization via Coarse & Fine Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文参考訳（メタデータ） (2023-12-17T02:31:20Z)
Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文参考訳（メタデータ） (2023-11-05T12:03:58Z)
Gradient-Based Post-Training Quantization: Challenging the Status Quo [23.1120983784623]
量子化は、ディープニューラルネットワークの効率的なデプロイのための重要なステップとなっている。この研究で、このプロセスは、ある程度は、多くの変数に対して堅牢であることを示す。我々は、より効率的でスケーラブルなGPTQメソッドを設計するための多くのベストプラクティスを導出する。
論文参考訳（メタデータ） (2023-08-15T09:25:11Z)
Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文参考訳（メタデータ） (2023-08-08T21:38:02Z)
BiTAT: Neural Network Binarization with Task-dependent Aggregated Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文参考訳（メタデータ） (2022-07-04T13:25:49Z)
Quantized Proximal Averaging Network for Analysis Sparse Coding [23.080395291046408]
反復アルゴリズムをトレーニング可能なネットワークに展開し,量子化前にスパーシティの学習を容易にする。圧縮画像回復と磁気共鳴画像再構成への応用を実証する。
論文参考訳（メタデータ） (2021-05-13T12:05:35Z)
Progressive Encoding for Neural Optimization [92.55503085245304]
メッシュ転送におけるppe層の能力と,そのアドバンテージを,現代の表面マッピング技術と比較した。最も重要な点は, パラメタライズフリーな手法であり, 様々な対象形状表現に適用可能であることである。
論文参考訳（メタデータ） (2021-04-19T08:22:55Z)
Where Should We Begin? A Low-Level Exploration of Weight Initialization Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文参考訳（メタデータ） (2020-11-30T06:54:28Z)
Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文参考訳（メタデータ） (2020-10-01T18:14:11Z)
Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文参考訳（メタデータ） (2020-02-18T12:31:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。