論文の概要: Rotation Invariant Quantization for Model Compression
- arxiv url: http://arxiv.org/abs/2303.03106v1
- Date: Fri, 3 Mar 2023 10:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 16:05:35.216560
- Title: Rotation Invariant Quantization for Model Compression
- Title(参考訳): モデル圧縮のための回転不変量子化
- Authors: Joseph Kampeas, Yury Nahshan, Hanoch Kremer, Gil Lederman, Shira
Zaloshinski, Zheng Li and Emir Haleva
- Abstract要約: トレーニング後のニューラルネットワーク(NN)モデル圧縮は、メモリリソースが限られているデバイスに大規模なメモリ消費モデルを展開するための魅力的なアプローチである。
NNモデル全体の量子化に単一パラメータを用いる回転不変量子化(RIQ)手法を提案する。
- 参考スコア(独自算出の注目度): 8.842258621101399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training Neural Network (NN) model compression is an attractive approach
for deploying large, memory-consuming models on devices with limited memory
resources. In this study, we investigate the rate-distortion tradeoff for NN
model compression. First, we suggest a Rotation-Invariant Quantization (RIQ)
technique that utilizes a single parameter to quantize the entire NN model,
yielding a different rate at each layer, i.e., mixed-precision quantization.
Then, we prove that our rotation-invariant approach is optimal in terms of
compression. We rigorously evaluate RIQ and demonstrate its capabilities on
various models and tasks. For example, RIQ facilitates $\times 19.4$ and
$\times 52.9$ compression ratios on pre-trained VGG dense and pruned models,
respectively, with $<0.4\%$ accuracy degradation. Code:
\url{https://github.com/ehaleva/RIQ}.
- Abstract(参考訳): トレーニング後のニューラルネットワーク(NN)モデル圧縮は、メモリリソースが限られたデバイスに大規模なメモリ消費モデルを展開するための魅力的なアプローチである。
本研究では,nnモデル圧縮のレートゆがみトレードオフについて検討する。
まず,単一パラメータを用いてnnモデル全体の量子化を行い,各層で異なるレート,すなわち混合精度量子化を行う回転不変量子化(riq)手法を提案する。
そして、我々の回転不変アプローチが圧縮の点で最適であることを示す。
我々は、RIQを厳格に評価し、様々なモデルやタスクでその能力を実証する。
例えば、RIQは、事前訓練されたVGG密度モデルとプルーニングモデルにおいて、それぞれ$19.4$と$52.9$の圧縮比を、$<0.4\%の精度劣化で促進する。
コード: \url{https://github.com/ehaleva/RIQ}。
関連論文リスト
- Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Deep learning model compression using network sensitivity and gradients [3.52359746858894]
非リトレーニング条件とリトレーニング条件の両方に対するモデル圧縮アルゴリズムを提案する。
まず,ネットワークパラメータの感度を用いた深層学習モデルの圧縮のためのBin & Quantアルゴリズムを提案する。
第2のケースでは、新しい勾配重み付きk平均クラスタリングアルゴリズム(GWK)を提案する。
論文 参考訳(メタデータ) (2022-10-11T03:02:40Z) - L$_0$onie: Compressing COINs with L$_0$-constraints [0.4568777157687961]
Inlicit Neural Representations (INR)は、ドメインに依存しない圧縮技術の研究を動機付けている。
我々はCOIN圧縮方式の空間制約付き拡張を提案する。
論文 参考訳(メタデータ) (2022-07-08T22:24:56Z) - OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。
OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。
本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:05:25Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Neural Network Compression Via Sparse Optimization [23.184290795230897]
スパース最適化の最近の進歩に基づくモデル圧縮フレームワークを提案する。
我々は、CIFAR10のVGG16とImageNetのResNet50で、同じレベルの精度で、最大7.2倍と2.9倍のFLOPを削減できる。
論文 参考訳(メタデータ) (2020-11-10T03:03:55Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - Kernel Quantization for Efficient Network Compression [59.55192551370948]
Kernel Quantization(KQ)は、事前訓練された全精度畳み込みニューラルネットワーク(CNN)モデルを、大幅なパフォーマンス損失のない低精度バージョンに効率的に変換することを目的としている。
重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。
ImageNet分類タスクの実験では、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表す。
論文 参考訳(メタデータ) (2020-03-11T08:00:04Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。