論文の概要: Extreme Model Compression with Structured Sparsity at Low Precision
- arxiv url: http://arxiv.org/abs/2511.08360v1
- Date: Wed, 12 Nov 2025 01:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.776567
- Title: Extreme Model Compression with Structured Sparsity at Low Precision
- Title(参考訳): 低精度における構造間隙を伴う極端モデル圧縮
- Authors: Dan Liu, Nikita Dvornik, Xue Liu,
- Abstract要約: ディープニューラルネットワーク(DNN)は多くのアプリケーションで使用されているが、その大きなサイズと高い計算コストにより、限られたリソースを持つデバイス上での動作が困難になる。
この課題に対処するために広く使われている2つの手法は、重量量子化(英語版)であり、これは全ての重量の精度を下げるものであり、構造的空間性(英語版)は重要でない重量を除去し、重要な重量を完全精度で保持する。
低精度のSLOPE構造空間を統一的なフレームワークとして導入し、構造化された空間空間と低ビット量子化を原理的に効果的に組み合わせる。
- 参考スコア(独自算出の注目度): 10.976782748075067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (DNNs) are used in many applications, but their large size and high computational cost make them hard to run on devices with limited resources. Two widely used techniques to address this challenge are weight quantization, which lowers the precision of all weights, and structured sparsity, which removes unimportant weights while retaining the important ones at full precision. Although both are effective individually, they are typically studied in isolation due to their compounded negative impact on model accuracy when combined. In this work, we introduce SLOPE Structured Sparsity at Low Precision), a unified framework, to effectively combine structured sparsity and low-bit quantization in a principled way. We show that naively combining sparsity and quantization severely harms performance due to the compounded impact of both techniques. To address this, we propose a training-time regularization strategy that minimizes the discrepancy between full-precision weights and their sparse, quantized counterparts by promoting angular alignment rather than direct matching. On ResNet-18, SLOPE achieves $\sim20\times$ model size reduction while retaining $\sim$99% of the original accuracy. It consistently outperforms state-of-the-art quantization and structured sparsity methods across classification, detection, and segmentation tasks on models such as ResNet-18, ViT-Small, and Mask R-CNN.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は多くのアプリケーションで使用されているが、その大きなサイズと高い計算コストにより、限られたリソースを持つデバイス上での動作が困難になる。
この課題に対処するために広く使われている2つの手法は、重量量子化(英語版)であり、これは全ての重量の精度を下げるものであり、構造的空間性(英語版)は重要でない重量を除去し、重要な重量を完全精度で保持する。
両者は個別に有効であるが、結合時のモデル精度に対する複合的な負の影響により、分離して研究されるのが一般的である。
本研究では,SLOPE構造スパーシリティ(SLOPE Structured Sparsity at Low Precision)を導入し,構造化されたスパーシリティと低ビット量子化を原理的に効果的に組み合わせる。
両手法の複合的影響により, 空間性と量子化の相乗効果が著しく損なわれることを示す。
そこで本研究では,直接マッチングではなく角度アライメントを促進することにより,全精度ウェイトとスパースな量子化ウェイトとの差を最小限に抑える訓練時間正規化戦略を提案する。
ResNet-18では、SLOPEはオリジナルの精度の99%を$\sim20\times$モデルサイズ削減を達成する。
それは、ResNet-18、ViT-Small、Mask R-CNNといったモデルにおける分類、検出、セグメンテーションタスクにおいて、最先端の量子化と構造化されたスパーシティメソッドを一貫して上回っている。
関連論文リスト
- PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Progressive Element-wise Gradient Estimation for Neural Network Quantization [2.1413624861650358]
量子化アウェアトレーニング(QAT)法は、離散化関数の非微分可能性に対処するためにSTE(Straight-Through Estimator)に依存する。
本稿では,連続値と量子化値の離散化誤差に対処するため,PEGE(Progressive Element-wise Gradient Estimation)を提案する。
PEGEは、既存のバックプロパゲーション手法を一貫して上回り、低精度のモデルが彼らの完全精度の精度にマッチしたり、さらに上回ったりすることを可能にしている。
論文 参考訳(メタデータ) (2025-08-27T15:59:36Z) - Column-wise Quantization of Weights and Partial Sums for Accurate and Efficient Compute-In-Memory Accelerators [7.728820930581886]
CIMはディープニューラルネットワーク(DNN)を実装するための効率的な方法であるが、かなりのオーバーヘッドに悩まされている。
低精度のADCは、このオーバーヘッドを削減できるが、部分的なサム量子化誤差による精度低下をもたらす。
この研究は、重みと部分サム量子化の粒度をカラム単位で整列させることによって、これらの課題に対処する。
論文 参考訳(メタデータ) (2025-02-11T05:32:14Z) - Effective Interplay between Sparsity and Quantization: From Theory to Practice [33.697590845745815]
組み合わせると、空間性と量子化がどう相互作用するかを示す。
仮に正しい順序で適用しても、スパーシリティと量子化の複合誤差は精度を著しく損なう可能性があることを示す。
我々の発見は、資源制約の計算プラットフォームにおける大規模モデルの効率的な展開にまで及んでいる。
論文 参考訳(メタデータ) (2024-05-31T15:34:13Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Sharpness-aware Quantization for Deep Neural Networks [45.150346855368]
シャープネス・アウェア量子化(SAQ)は,シャープネス・アウェア最小化(SAM)がモデル圧縮に与える影響を探索する新しい手法である。
本研究では,SAQにより量子化モデルの一般化性能が向上し,SOTAの結果が均一に量子化されることを示す。
論文 参考訳(メタデータ) (2021-11-24T05:16:41Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Sparse Uncertainty Representation in Deep Learning with Inducing Weights [22.912675044223302]
我々はMatheronの条件付きガウスサンプリングルールを拡張し、高速な重量サンプリングを可能にする。
提案手法は,完全連結ニューラルネットワークとResNetを用いた予測および不確実性推定タスクにおける最先端の競争性能を実現する。
論文 参考訳(メタデータ) (2021-05-30T18:17:47Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。