論文の概要: MSQ: Memory-Efficient Bit Sparsification Quantization
- arxiv url: http://arxiv.org/abs/2507.22349v1
- Date: Wed, 30 Jul 2025 03:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.96825
- Title: MSQ: Memory-Efficient Bit Sparsification Quantization
- Title(参考訳): MSQ: メモリ効率の良いビットスカラー化量子化
- Authors: Seokho Han, Seoyeon Yoon, Jinhee Kim, Dongwei Wang, Kang Eun Jeon, Huanrui Yang, Jong Hwan Ko,
- Abstract要約: 混合精度量子化は効率と精度のバランスが優れているため、広く好まれる。
メモリ効率の良いビットスカラー化量子化(MSQ)を提案する。
MSQは、トレーニング可能なパラメータの最大8.00倍の削減、トレーニング時間の最大86%の削減を実現している。
- 参考スコア(独自算出の注目度): 11.510434574824213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As deep neural networks (DNNs) see increased deployment on mobile and edge devices, optimizing model efficiency has become crucial. Mixed-precision quantization is widely favored, as it offers a superior balance between efficiency and accuracy compared to uniform quantization. However, finding the optimal precision for each layer is challenging. Recent studies utilizing bit-level sparsity have shown promise, yet they often introduce substantial training complexity and high GPU memory requirements. In this paper, we propose Memory-Efficient Bit Sparsification Quantization (MSQ), a novel approach that addresses these limitations. MSQ applies a round-clamp quantizer to enable differentiable computation of the least significant bits (LSBs) from model weights. It further employs regularization to induce sparsity in these LSBs, enabling effective precision reduction without explicit bit-level parameter splitting. Additionally, MSQ incorporates Hessian information, allowing the simultaneous pruning of multiple LSBs to further enhance training efficiency. Experimental results show that MSQ achieves up to 8.00x reduction in trainable parameters and up to 86% reduction in training time compared to previous bit-level quantization, while maintaining competitive accuracy and compression rates. This makes it a practical solution for training efficient DNNs on resource-constrained devices.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)がモバイルとエッジデバイスへのデプロイメントを増大させるにつれ、モデル効率の最適化が重要になっている。
混合精度量子化は、均一量子化よりも効率と精度のバランスが優れているため、広く好まれる。
しかし,各層に最適な精度を求めることは困難である。
ビットレベルの空間性を利用した最近の研究は、将来性を示しているが、トレーニングの複雑さと高いGPUメモリ要件がしばしば導入されている。
本稿では,メモリ効率の良いビットスカラー化量子化(MSQ)を提案する。
MSQは、モデル重みから最小有意ビット(LSB)の微分可能な計算を可能にするために、ラウンドクランプ量子化器を適用している。
さらに、これらのLSBのスパーシリティを正則化して、明示的なビットレベルのパラメータ分割を伴わずに効果的な精度の低減を実現している。
さらに、MSQはヘッセン情報を取り入れ、複数のLSBを同時に刈り取ることで、トレーニング効率をさらに高めることができる。
実験結果から,MSQはトレーニング可能なパラメータの最大8.00倍の削減を実現し,従来のビットレベルの量子化に比べて最大86%のトレーニング時間を短縮し,競争精度と圧縮率を維持した。
これにより、リソース制約のあるデバイス上で効率的なDNNをトレーニングするための実用的なソリューションとなる。
関連論文リスト
- Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model [0.0]
Mix-QSAMはSegment Anything Model(SAM)のためのPTQフレームワークである。
モデル出力に対する各レイヤの寄与を定量化するために,Kulback-Leibler (KL) 偏差を用いて導出したレイヤ単位の重要度スコアを導入する。
また、隣接層間の依存関係を捉えるために、因果的相互情報に基づく新しい計量である層間相乗法を導入する。
論文 参考訳(メタデータ) (2025-05-08T00:08:31Z) - FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - Q-MambaIR: Accurate Quantized Mamba for Efficient Image Restoration [34.43633070396096]
状態空間モデル(SSM)は、画像復元(IR)において大きな注目を集めている。
Q-MambaIRは、IRタスクのための正確で効率的で柔軟な量子マンバである。
論文 参考訳(メタデータ) (2025-03-27T20:34:11Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。
HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。
このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文 参考訳(メタデータ) (2024-05-01T17:18:46Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。