Fugu-MT 論文翻訳(概要): Retraining-free Model Quantization via One-Shot Weight-Coupling Learning

論文の概要: Retraining-free Model Quantization via One-Shot Weight-Coupling Learning

arxiv url: http://arxiv.org/abs/2401.01543v2
Date: Fri, 14 Jun 2024 14:55:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 19:24:01.435794
Title: Retraining-free Model Quantization via One-Shot Weight-Coupling Learning
Title（参考訳）: ワンショット重み結合学習によるリトレーニングフリーモデル量子化
Authors: Chen Tang, Yuan Meng, Jiacheng Jiang, Shuzhao Xie, Rongwei Lu, Xinzhu Ma, Zhi Wang, Wenwu Zhu,
Abstract要約: 混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。 MPQは典型的には、探索訓練された2段階のプロセスに編成される。本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
参考スコア（独自算出の注目度）: 41.299675080384
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Quantization is of significance for compressing the over-parameterized deep neural models and deploying them on resource-limited devices. Fixed-precision quantization suffers from performance drop due to the limited numerical representation ability. Conversely, mixed-precision quantization (MPQ) is advocated to compress the model effectively by allocating heterogeneous bit-width for layers. MPQ is typically organized into a searching-retraining two-stage process. In this paper, we devise a one-shot training-searching paradigm for mixed-precision model compression. Specifically, in the first stage, all potential bit-width configurations are coupled and thus optimized simultaneously within a set of shared weights. However, our observations reveal a previously unseen and severe bit-width interference phenomenon among highly coupled weights during optimization, leading to considerable performance degradation under a high compression ratio. To tackle this problem, we first design a bit-width scheduler to dynamically freeze the most turbulent bit-width of layers during training, to ensure the rest bit-widths converged properly. Then, taking inspiration from information theory, we present an information distortion mitigation technique to align the behavior of the bad-performing bit-widths to the well-performing ones. In the second stage, an inference-only greedy search scheme is devised to evaluate the goodness of configurations without introducing any additional training costs. Extensive experiments on three representative models and three datasets demonstrate the effectiveness of the proposed method. Code can be available on \href{https://www.github.com/1hunters/retraining-free-quantization}{https://github.com/1hunters/retraining-free-quantization}.
Abstract（参考訳）: 量子化は、過度にパラメータ化されたディープニューラルネットワークモデルを圧縮し、リソース制限されたデバイスにデプロイする上で重要である。固定精度量子化は、限られた数値表現能力のために性能低下に悩まされる。逆に、混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。 MPQは典型的には、探索訓練された2段階のプロセスに編成される。本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。特に第1段階では、すべての潜在的なビット幅構成が結合され、共有重みのセット内で同時に最適化される。しかし,本研究の観測結果から,高度に結合した重み間において,従来は目に見えず深刻なビット幅干渉現象が明らかとなり,高い圧縮比で性能劣化が生じた。この問題に対処するために、我々はまず、トレーニング中に最も乱れやすいビット幅を動的に凍結するビット幅スケジューラを設計し、残りのビット幅を適切に収束させる。そこで,情報理論からインスピレーションを得た情報歪み軽減手法を提案する。第2段階では、追加のトレーニングコストを導入することなく、構成の良さを評価するために、推論のみの欲求探索方式が考案されている。 3つの代表モデルと3つのデータセットに関する大規模な実験により,提案手法の有効性が示された。コードは \href{https://www.github.com/1hunters/retraining-free-quantization}{https://github.com/1hunters/retraining-free-quantization} で利用できる。

関連論文リスト

Quantization-Aware Regularizers for Deep Neural Networks Compression [0.061173711613792085]
トレーニング中に自然にクラスタを形成するために重みを駆動する層ごとの正規化用語を導入します。これにより、量子化法に典型的に関連付けられた精度損失が減少する。 AlexNet と VGG16 モデルを用いた CIFAR-10 の実験により,提案手法の有効性が確認された。
論文参考訳（メタデータ） (2026-02-03T15:07:43Z)
Repulsor: Accelerating Generative Modeling with a Contrastive Memory Bank [65.00301565190824]
mnameは、外部エンコーダを必要としない、プラグアンドプレイのトレーニングフレームワークである。 mnameは400kのステップでtextbf2.40 の最先端 FID を達成し、同等のメソッドを著しく上回っている。
論文参考訳（メタデータ） (2025-12-09T14:39:26Z)
A Systematic Study of Compression Ordering for Large Language Models [0.5926203312586109]
本研究では,Qwen2.5 3Bモデルに適用した場合の知識蒸留,構造化プルーニング,低ビット量子化の方法について系統的に検討する。実験により、量子化は最大のスタンドアロン圧縮を提供する一方で、プルーニングは適度な品質劣化をもたらすことが示された。
論文参考訳（メタデータ） (2025-11-23T12:46:56Z)
SQS: Bayesian DNN Compression through Sparse Quantized Sub-distributions [18.749300190253624]
ベイズ変分学習(SQS)による同時プルーニングと低ビット量子化のための統合フレームワークを提案する。理論的には、スパースで量子化されたディープニューラルネットワークに対する我々の提案した変分アプローチの一貫性のある結果を提供する。
論文参考訳（メタデータ） (2025-10-10T04:54:29Z)
PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。 PT$2$-LLMを提案する。その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文参考訳（メタデータ） (2025-09-27T03:01:48Z)
Integrating Pruning with Quantization for Efficient Deep Neural Networks Compression [0.0]
プルーニングと量子化は、モデルのサイズを減らし、処理速度を向上させるために広く使われている圧縮技術である。本稿では,類似性に基づくフィルタプルーニングとアダプティブ・パワー・オブ・ツー(APoT)量子化を統合し,高い圧縮効率を実現する2つの手法を提案する。実験により,提案手法は精度の低下を最小限に抑え,効率的なモデル圧縮を実現することを示す。
論文参考訳（メタデータ） (2025-09-04T14:17:28Z)
MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
Robust Machine Unlearning for Quantized Neural Networks via Adaptive Gradient Reweighting with Similar Labels [5.868949328814509]
モデル量子化は、低ビットパラメータ表現によるエッジデバイスへのディープニューラルネットワークの効率的な展開を可能にする。既存のマシン・アンラーニング(MU)手法は量子化されたネットワークにおける2つの基本的な制限に対処できない。本稿では,量子化モデルのための学習フレームワークQ-MULを提案する。
論文参考訳（メタデータ） (2025-03-18T05:22:13Z)
Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。 ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文参考訳（メタデータ） (2025-02-03T18:40:58Z)
MPQ-DM: Mixed Precision Quantization for Extremely Low Bit Diffusion Models [37.061975191553]
本稿では,拡散モデルのための混合精度量子化法MPQ-DMを提案する。重み付き外周波による量子化誤差を軽減するために,外周波混合量子化手法を提案する。時間ステップを横断する表現を頑健に学習するために,時間-平滑な関係蒸留方式を構築した。
論文参考訳（メタデータ） (2024-12-16T08:31:55Z)
Convolutional Neural Network Compression Based on Low-Rank Decomposition [3.3295360710329738]
本稿では,変分ベイズ行列分解を組み込んだモデル圧縮法を提案する。 VBMFは各層における重みテンソルのランクを推定するために用いられる。その結果, 高圧縮比と低圧縮比では, 圧縮モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-08-29T06:40:34Z)
Post-Training Quantization for Re-parameterization via Coarse & Fine Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文参考訳（メタデータ） (2023-12-17T02:31:20Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Boosting Low-Data Instance Segmentation by Unsupervised Pre-training with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文参考訳（メタデータ） (2023-02-02T15:49:03Z)
Optimal Brain Compression: A Framework for Accurate Post-Training Quantization and Pruning [29.284147465251685]
重み付けと量子化の両方を統一した環境でカバーする新しい圧縮フレームワークを提案する。既存のポストトレーニング手法の圧縮精度トレードオフにより, 大幅な改善が期待できることを示す。
論文参考訳（メタデータ） (2022-08-24T14:33:35Z)
OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。 OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文参考訳（メタデータ） (2022-05-23T09:05:25Z)
Unified Multivariate Gaussian Mixture for Efficient Neural Image Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文参考訳（メタデータ） (2022-03-21T11:44:17Z)
Compact representations of convolutional neural networks via weight pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文参考訳（メタデータ） (2021-08-28T20:39:54Z)
Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文参考訳（メタデータ） (2020-04-15T20:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。