論文の概要: Explaining How Quantization Disparately Skews a Model
- arxiv url: http://arxiv.org/abs/2509.07222v1
- Date: Mon, 08 Sep 2025 21:04:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.124325
- Title: Explaining How Quantization Disparately Skews a Model
- Title(参考訳): 量子化がモデルをどのように異なるかを説明する
- Authors: Abhimanyu Bellam, Jung-Eun Kim,
- Abstract要約: ポストトレーニング量子化(PTQ)は、圧縮容量と速度が正確性に最小限の影響を受け、広く採用されている。
特にマイノリティグループでは, 量子化によって異なる影響が増すことが観察された。
量子化によって引き起こされる重みや活性化の変化がネットワークのカスケード的な影響をいかに引き起こし、より分散度が低く、損失が増大し、グループ精度が損なわれるかを検討する。
- 参考スコア(独自算出の注目度): 8.210473195536077
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Post Training Quantization (PTQ) is widely adopted due to its high compression capacity and speed with minimal impact on accuracy. However, we observed that disparate impacts are exacerbated by quantization, especially for minority groups. Our analysis explains that in the course of quantization there is a chain of factors attributed to a disparate impact across groups during forward and backward passes. We explore how the changes in weights and activations induced by quantization cause cascaded impacts in the network, resulting in logits with lower variance, increased loss, and compromised group accuracies. We extend our study to verify the influence of these impacts on group gradient norms and eigenvalues of the Hessian matrix, providing insights into the state of the network from an optimization point of view. To mitigate these effects, we propose integrating mixed precision Quantization Aware Training (QAT) with dataset sampling methods and weighted loss functions, therefore providing fair deployment of quantized neural networks.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、圧縮容量と速度が正確性に最小限の影響を受け、広く採用されている。
しかし, マイノリティグループでは, 量子化によって異なる影響が増すことが観察された。
我々の分析では、量子化の過程では、前方および後方通過中のグループ間で異なる影響に起因する要因が連鎖していると説明されている。
量子化によって引き起こされる重みや活性化の変化がネットワークのカスケード的な影響をいかに引き起こし、より分散度が低く、損失が増大し、グループ精度が損なわれるかを検討する。
我々は、これらの影響が群勾配ノルムやヘッセン行列の固有値に与える影響を検証するために研究を拡張し、最適化の観点からネットワークの状態に関する洞察を提供する。
これらの効果を緩和するために、混合精度量子化アウェアトレーニング(QAT)とデータセットサンプリング手法と重み付き損失関数の統合を提案し、量子化されたニューラルネットワークを公平に展開する。
関連論文リスト
- Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - Investigating the Impact of Quantization on Adversarial Robustness [22.637585106574722]
量子化は、ディープモデルのビット幅を減らし、実行時のパフォーマンスとストレージ効率を改善する技術である。
現実のシナリオでは、量子化されたモデルは、しばしば逆攻撃に直面する。
我々は、ロバストな最適化を組み込むことのできる量子化パイプラインコンポーネントの影響を、初めて分析する。
論文 参考訳(メタデータ) (2024-04-08T16:20:15Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - FIT: A Metric for Model Sensitivity [1.2622086660704197]
本稿では、フィッシャー情報と量子化のモデルを組み合わせたFITを提案する。
FITは再トレーニングなしにネットワークの最終的な性能を推定できる。
FITは既存の手法と比較して高速に計算でき、良好な収束特性を示す。
論文 参考訳(メタデータ) (2022-10-16T10:25:29Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - How Tempering Fixes Data Augmentation in Bayesian Neural Networks [22.188535244056016]
テンパリングは、拡張のモデリングから生じる誤特定を暗黙的に減らし、すなわちデータとして示す。
温度は有効サンプルサイズの役割を模倣し、増強によって提供される情報の利得を反映している。
論文 参考訳(メタデータ) (2022-05-27T11:06:56Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。