論文の概要: FIT: A Metric for Model Sensitivity
- arxiv url: http://arxiv.org/abs/2210.08502v1
- Date: Sun, 16 Oct 2022 10:25:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 16:46:45.732546
- Title: FIT: A Metric for Model Sensitivity
- Title(参考訳): fit: モデルの感度の指標
- Authors: Ben Zandonati, Adrian Alan Pol, Maurizio Pierini, Olya Sirkin, Tal
Kopetz
- Abstract要約: 本稿では、フィッシャー情報と量子化のモデルを組み合わせたFITを提案する。
FITは再トレーニングなしにネットワークの最終的な性能を推定できる。
FITは既存の手法と比較して高速に計算でき、良好な収束特性を示す。
- 参考スコア(独自算出の注目度): 1.2622086660704197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model compression is vital to the deployment of deep learning on edge
devices. Low precision representations, achieved via quantization of weights
and activations, can reduce inference time and memory requirements. However,
quantifying and predicting the response of a model to the changes associated
with this procedure remains challenging. This response is non-linear and
heterogeneous throughout the network. Understanding which groups of parameters
and activations are more sensitive to quantization than others is a critical
stage in maximizing efficiency. For this purpose, we propose FIT. Motivated by
an information geometric perspective, FIT combines the Fisher information with
a model of quantization. We find that FIT can estimate the final performance of
a network without retraining. FIT effectively fuses contributions from both
parameter and activation quantization into a single metric. Additionally, FIT
is fast to compute when compared to existing methods, demonstrating favourable
convergence properties. These properties are validated experimentally across
hundreds of quantization configurations, with a focus on layer-wise
mixed-precision quantization.
- Abstract(参考訳): モデル圧縮は、エッジデバイスへのディープラーニングの展開に不可欠である。
重みとアクティベーションの量子化によって達成される低精度表現は、推論時間とメモリ要求を減らすことができる。
しかしながら、この手順に関連する変更に対するモデルの応答の定量化と予測は依然として困難である。
この応答は非線形であり、ネットワーク全体で異種である。
パラメータとアクティベーションのどのグループが量子化に敏感であるかを理解することは、効率を最大化する重要な段階である。
そこで我々はFITを提案する。
情報幾何学的視点によって動機づけられたFITは、フィッシャー情報と量子化のモデルを組み合わせる。
FITは再トレーニングなしにネットワークの最終的な性能を推定できる。
FITはパラメータとアクティベーション量子化の両方からの貢献を効果的に1つの計量に融合する。
さらに、FITは既存の手法と比較して高速に計算でき、良好な収束特性を示す。
これらの性質は数百の量子化構成で実験的に検証され、層間混合精度量子化に焦点が当てられている。
関連論文リスト
- Quantization without Tears [26.5790668319932]
QwT(Quantization without Tears)は、量子化速度、精度、単純さ、一般化性を同時に達成する手法である。
QwTは、量子化中の情報損失を軽減するために、軽量な追加構造を量子化ネットワークに組み込む。
様々な視覚、言語、マルチモーダルタスクにわたる広範囲な実験は、QwTが高効率かつ多目的であることを示した。
論文 参考訳(メタデータ) (2024-11-21T08:13:24Z) - PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural Networks [4.827161693957252]
非量子化要素演算は、低精度モデルの推論コストを支配している。
PikeLPNモデルは、要素演算と乗算累積演算の両方に量子化を適用することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-03-29T18:23:34Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。
量子化空間全体にわたって新しい量子化重みを学習する方法を示す。
本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-10T14:19:58Z) - Green, Quantized Federated Learning over Wireless Networks: An
Energy-Efficient Design [68.86220939532373]
有限精度レベルは、固定精度フォーマットで重みとアクティベーションを定量化する量子ニューラルネットワーク(QNN)を使用して取得される。
提案するFLフレームワークは,ベースラインFLアルゴリズムと比較して,収束までのエネルギー消費量を最大70%削減することができる。
論文 参考訳(メタデータ) (2022-07-19T16:37:24Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - ECQ$^{\text{x}}$: Explainability-Driven Quantization for Low-Bit and
Sparse DNNs [13.446502051609036]
我々はディープニューラルネットワーク(DNN)のための新しい量子化パラダイムを開発し、記述する。
本手法は,説明可能なAI(XAI)の概念と情報理論の概念を活用する。
最終的な目標は、最高の情報内容の量子化クラスタにおいて、最も関連性の高い重みを維持することである。
論文 参考訳(メタデータ) (2021-09-09T12:57:06Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。