Fugu-MT 論文翻訳(概要): Training with Quantization Noise for Extreme Model Compression

論文の概要: Training with Quantization Noise for Extreme Model Compression

arxiv url: http://arxiv.org/abs/2004.07320v3
Date: Sun, 28 Feb 2021 21:43:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-13 02:54:44.001559
Title: Training with Quantization Noise for Extreme Model Compression
Title（参考訳）: 極モデル圧縮のための量子化雑音による訓練
Authors: Angela Fan, Pierre Stock, Benjamin Graham, Edouard Grave, Remi Gribonval, Herve Jegou, Armand Joulin
Abstract要約: 与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
参考スコア（独自算出の注目度）: 57.51832088938618
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We tackle the problem of producing compact models, maximizing their accuracy for a given model size. A standard solution is to train networks with Quantization Aware Training, where the weights are quantized during training and the gradients approximated with the Straight-Through Estimator. In this paper, we extend this approach to work beyond int8 fixed-point quantization with extreme compression methods where the approximations introduced by STE are severe, such as Product Quantization. Our proposal is to only quantize a different random subset of weights during each forward, allowing for unbiased gradients to flow through the other weights. Controlling the amount of noise and its form allows for extreme compression rates while maintaining the performance of the original model. As a result we establish new state-of-the-art compromises between accuracy and model size both in natural language processing and image classification. For example, applying our method to state-of-the-art Transformer and ConvNet architectures, we can achieve 82.5% accuracy on MNLI by compressing RoBERTa to 14MB and 80.0 top-1 accuracy on ImageNet by compressing an EfficientNet-B3 to 3.3MB.
Abstract（参考訳）: 我々は,コンパクトモデルの作成の問題に取り組み,そのモデルの精度を最大化する。標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練によるネットワークのトレーニングである。本稿では, 製品量子化など, STE が導入した近似が重大であるような極端な圧縮手法を用いて, int8 の固定点量子化を超えて, このアプローチを拡張した。我々の提案は、それぞれの前方で異なるランダムな重みのサブセットだけを定量化し、不偏勾配が他の重みを流れるようにすることである。ノイズ量とその形状を制御することで、元のモデルの性能を維持しながら、極端な圧縮率が得られる。その結果,自然言語処理と画像分類の両方において,精度とモデルサイズの間に新たな妥協点が確立された。例えば、我々の手法を最先端のTransformerおよびConvNetアーキテクチャに適用すると、RoBERTaを14MBに、ImageNetで80.0 Top-1の精度を3.3MBに圧縮することで、MNLIの82.5%の精度が得られる。

関連論文リスト

SQS: Bayesian DNN Compression through Sparse Quantized Sub-distributions [18.749300190253624]
ベイズ変分学習(SQS)による同時プルーニングと低ビット量子化のための統合フレームワークを提案する。理論的には、スパースで量子化されたディープニューラルネットワークに対する我々の提案した変分アプローチの一貫性のある結果を提供する。
論文参考訳（メタデータ） (2025-10-10T04:54:29Z)
CondiQuant: Condition Number Based Low-Bit Quantization for Image Super-Resolution [59.91470739501034]
画像超解像のための条件数に基づく低ビットポストトレーニング量子化であるCondiQuantを提案する。 CondiQuantは、計算オーバーヘッドを伴わずに、既存の最先端のポストトレーニング量子化手法よりも精度が高いことを示す。
論文参考訳（メタデータ） (2025-02-21T14:04:30Z)
SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。 SLIMはモデル精度を最大5.66%(LLaMA-2-7B)に改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。また,小調整なしでSLIMと比較して,最大1.66%(LLaMA-2-13B)の精度向上を図ったPEFTレシピを提案する。
論文参考訳（メタデータ） (2024-10-12T18:36:07Z)
Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。 MPQは典型的には、探索訓練された2段階のプロセスに編成される。本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文参考訳（メタデータ） (2024-01-03T05:26:57Z)
Hyperspherical Quantization: Toward Smaller and More Accurate Models [17.154801913113566]
ベクトル量子化は、モデルウェイトを高精度な埋め込みでインデックス化することで、モデルサイズを減らすことを目的としている。バイナリや他の低精度量子化法は、モデルのサイズを32$times$まで削減できるが、かなりの精度低下を犠牲にすることができる。より小型で高精度な圧縮モデルを生成するために, 3次量子化のための効率的なフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-24T04:42:15Z)
Vertical Layering of Quantized Neural Networks for Heterogeneous Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文参考訳（メタデータ） (2022-12-10T15:57:38Z)
Deep learning model compression using network sensitivity and gradients [3.52359746858894]
非リトレーニング条件とリトレーニング条件の両方に対するモデル圧縮アルゴリズムを提案する。まず,ネットワークパラメータの感度を用いた深層学習モデルの圧縮のためのBin & Quantアルゴリズムを提案する。第2のケースでは、新しい勾配重み付きk平均クラスタリングアルゴリズム(GWK)を提案する。
論文参考訳（メタデータ） (2022-10-11T03:02:40Z)
CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。 CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。 CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文参考訳（メタデータ） (2022-07-28T16:13:28Z)
OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。 OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文参考訳（メタデータ） (2022-05-23T09:05:25Z)
Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文参考訳（メタデータ） (2021-12-30T06:32:47Z)
Variable-Rate Deep Image Compression through Spatially-Adaptive Feature Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文参考訳（メタデータ） (2021-08-21T17:30:06Z)
Pruning Ternary Quantization [32.32812780843498]
推測時間、モデルサイズ、精度は、ディープモデル圧縮の3つの重要な要素である。単純で効果的で対称な三項量子化法であるプルーニング三項量子化(PTQ)を提案する。本手法は,異なるネットワーク構造を持つ画像分類,物体検出・分離タスクについて検証する。
論文参考訳（メタデータ） (2021-07-23T02:18:00Z)
Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文参考訳（メタデータ） (2021-04-20T14:14:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。