論文の概要: Integrating Pruning with Quantization for Efficient Deep Neural Networks Compression
- arxiv url: http://arxiv.org/abs/2509.04244v1
- Date: Thu, 04 Sep 2025 14:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.184761
- Title: Integrating Pruning with Quantization for Efficient Deep Neural Networks Compression
- Title(参考訳): 効率的なディープニューラルネットワーク圧縮のための量子化とプルーニングの統合
- Authors: Sara Makenali, Babak Rokh, Ali Azarpeyvand,
- Abstract要約: プルーニングと量子化は、モデルのサイズを減らし、処理速度を向上させるために広く使われている圧縮技術である。
本稿では,類似性に基づくフィルタプルーニングとアダプティブ・パワー・オブ・ツー(APoT)量子化を統合し,高い圧縮効率を実現する2つの手法を提案する。
実験により,提案手法は精度の低下を最小限に抑え,効率的なモデル圧縮を実現することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep Neural Networks (DNNs) have achieved significant advances in a wide range of applications. However, their deployment on resource-constrained devices remains a challenge due to the large number of layers and parameters, which result in considerable computational and memory demands. To address this issue, pruning and quantization are two widely used compression techniques, commonly applied individually in most studies to reduce model size and enhance processing speed. Nevertheless, combining these two techniques can yield even greater compression benefits. Effectively integrating pruning and quantization to harness their complementary advantages poses a challenging task, primarily due to their potential impact on model accuracy and the complexity of jointly optimizing both processes. In this paper, we propose two approaches that integrate similarity-based filter pruning with Adaptive Power-of-Two (APoT) quantization to achieve higher compression efficiency while preserving model accuracy. In the first approach, pruning and quantization are applied simultaneously during training. In the second approach, pruning is performed first to remove less important parameters, followed by quantization of the pruned model using low-bit representations. Experimental results demonstrate that our proposed approaches achieve effective model compression with minimal accuracy degradation, making them well-suited for deployment on devices with limited computational resources.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、幅広いアプリケーションにおいて大きな進歩を遂げている。
しかしながら、リソース制限されたデバイスへのデプロイメントは、大量のレイヤとパラメータが計算とメモリの要求にかなりの負荷をもたらすため、依然として課題である。
この問題に対処するために、プルーニングと量子化は2つの広く使われている圧縮技術であり、モデルサイズを減らし処理速度を向上するために、ほとんどの研究で個別に適用される。
しかし、これらの2つの技術を組み合わせることで、より大きな圧縮効果が得られる。
プルーニングと量子化を効果的に統合してそれらの相補的な優位性を活用することは、主にモデル精度と両プロセスの共同最適化の複雑さに対する潜在的な影響のために、難しい課題となる。
本稿では,類似性に基づくフィルタプルーニングとアダプティブ・パワー・オブ・ツー(APoT)量子化を統合し,モデル精度を維持しつつ高い圧縮効率を実現する2つの手法を提案する。
第1のアプローチでは、訓練中にプルーニングと量子化を同時に適用する。
第2のアプローチでは、プルーニングがまず重要でないパラメータを除去し、続いて低ビット表現を用いたプルーニングモデルの量子化を行う。
実験により,提案手法は精度の低下を最小限に抑えた効率的なモデル圧縮を実現し,計算資源に制限のあるデバイスに展開するのに適していることが示された。
関連論文リスト
- Reducing Storage of Pretrained Neural Networks by Rate-Constrained Quantization and Entropy Coding [56.066799081747845]
成長を続けるニューラルネットワークのサイズは、リソースに制約のあるデバイスに深刻な課題をもたらす。
本稿では,レートアウェア量子化とエントロピー符号化を組み合わせた学習後圧縮フレームワークを提案する。
この方法では非常に高速な復号化が可能であり、任意の量子化グリッドと互換性がある。
論文 参考訳(メタデータ) (2025-05-24T15:52:49Z) - Effective Interplay between Sparsity and Quantization: From Theory to Practice [33.697590845745815]
組み合わせると、空間性と量子化がどう相互作用するかを示す。
仮に正しい順序で適用しても、スパーシリティと量子化の複合誤差は精度を著しく損なう可能性があることを示す。
我々の発見は、資源制約の計算プラットフォームにおける大規模モデルの効率的な展開にまで及んでいる。
論文 参考訳(メタデータ) (2024-05-31T15:34:13Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,不均衡な活性化分布を量子化困難の原因として同定する。
我々は,これらの分布を,より量子化しやすいように微調整することで調整することを提案する。
本手法は3つの高解像度画像生成タスクに対して有効性を示す。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。
OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。
本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:05:25Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。