論文の概要: Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression
- arxiv url: http://arxiv.org/abs/2604.04988v1
- Date: Sun, 05 Apr 2026 06:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.385426
- Title: Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression
- Title(参考訳): Prune-Quantize-Distill:効率的なニューラルネットワーク圧縮のための順序付きパイプライン
- Authors: Longsheng Zhou, Yu Shen,
- Abstract要約: この圧縮と加速のギャップによって、我々は測定されたレイテンシーをターゲットとした実用的な順序付きパイプラインを研究した。
我々は、非構造化プルーニング、量子化対応トレーニング(QAT)、知識蒸留(KD)の3つの広く使われている技術を組み合わせている。
すべての設定で、順序付けされたパイプラインは、単一のテクニック単独よりも、より精度の高いレイテンシフロンティアを実現する。
- 参考スコア(独自算出の注目度): 4.049313299965171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern deployment often requires trading accuracy for efficiency under tight CPU and memory constraints, yet common compression proxies such as parameter count or FLOPs do not reliably predict wall-clock inference time. In particular, unstructured sparsity can reduce model storage while failing to accelerate (and sometimes slightly slowing down) standard CPU execution due to irregular memory access and sparse kernel overhead. Motivated by this gap between compression and acceleration, we study a practical, ordered pipeline that targets measured latency by combining three widely used techniques: unstructured pruning, INT8 quantization-aware training (QAT), and knowledge distillation (KD). Empirically, INT8 QAT provides the dominant runtime benefit, while pruning mainly acts as a capacity-reduction pre-conditioner that improves the robustness of subsequent low-precision optimization; KD, applied last, recovers accuracy within the already constrained sparse INT8 regime without changing the deployment form. We evaluate on CIFAR-10/100 using three backbones (ResNet-18, WRN-28-10, and VGG-16-BN). Across all settings, the ordered pipeline achieves a stronger accuracy-size-latency frontier than any single technique alone, reaching 0.99-1.42 ms CPU latency with competitive accuracy and compact checkpoints. Controlled ordering ablations with a fixed 20/40/40 epoch allocation further confirm that stage order is consequential, with the proposed ordering generally performing best among the tested permutations. Overall, our results provide a simple guideline for edge deployment: evaluate compression choices in the joint accuracy-size-latency space using measured runtime, rather than proxy metrics alone.
- Abstract(参考訳): 現代のデプロイメントでは、厳密なCPUとメモリ制約の下で効率の取引精度を必要とすることが多いが、パラメータカウントやFLOPのような一般的な圧縮プロキシは、ウォールクロックの推測時間を確実に予測しない。
特に、非構造化のスパーシリティは、不規則なメモリアクセスと少ないカーネルオーバーヘッドのために、標準CPUの実行を加速(時にはわずかに遅くする)するのに失敗しながら、モデルストレージを減らすことができる。
この圧縮と加速のギャップによって,非構造化プルーニング,INT8量子化学習(QAT),知識蒸留(KD)という3つの広く使用されている手法を組み合わせることで,測定レイテンシーを目標とする実用的な順序付きパイプラインについて検討した。
実証的に、INT8 QATは、主にキャパシティ還元プレコンディショナーとして機能し、その後の低精度最適化の堅牢性を改善する。
3つのバックボーン(ResNet-18, WRN-28-10, VGG-16-BN)を用いてCIFAR-10/100の評価を行った。
すべての設定において、順序付けられたパイプラインは、どの技術よりも高い精度とレイテンシのフロンティアを達成し、競争精度とコンパクトなチェックポイントで0.99-1.42msのCPUレイテンシに達する。
固定された20/40/40エポック割当による制御順序付けは、ステージ順が連続的であることをさらに確認し、提案された順序付けは、テストされた順列の中で一般的に最もよく機能する。
全体として、我々の結果は、エッジデプロイメントのための簡単なガイドラインを提供する: プロキシメトリクスのみではなく、測定されたランタイムを使用して、共同の精度-サイズ-レイテンシ空間における圧縮選択を評価する。
関連論文リスト
- Don't Waste Bits! Adaptive KV-Cache Quantization for Lightweight On-Device LLMs [8.332279450103151]
大規模言語モデル (LLM) は、推論、生成、意思決定のタスクで顕著な進歩を遂げた。
オンデバイスLSM推論は、キー値(KV)キャッシュのメモリと帯域幅のオーバーヘッドによって大きく制約される。
本稿では,トークンの重要度に比例したビット幅を割り当てる学習ポリシである適応KV-cache量子化を提案する。
論文 参考訳(メタデータ) (2026-04-06T14:45:49Z) - CoDeQ: End-to-End Joint Model Compression with Dead-Zone Quantizer for High-Sparsity and Low-Precision Networks [9.784730417146335]
CoDeQは、単純で完全に微分可能なジョイントプルーニング-量子化法である。
デッドゾーン幅をパラメータ化し、量子化パラメータとともにバックプロパゲーションにより学習する。
ResNet-18のImageNetでは、CoDeQはビット演算を5%まで削減し、完全な精度を維持している。
論文 参考訳(メタデータ) (2025-12-15T04:53:32Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - Data-Free Dynamic Compression of CNNs for Tractable Efficiency [46.498278084317704]
構造化プルーニング手法は, 精度が大幅に低下することなく浮動小数点演算を低下させる可能性を示唆している。
HASTE(Hashing for Tractable Efficiency)は,データフリーでプラグイン・アンド・プレイのコンボリューションモジュールで,トレーニングや微調整なしにネットワークのテスト時間推論コストを瞬時に低減する。
CIFAR-10とImageNetでは46.72%のFLOPを1.25%の精度で削減した。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Sub-8-bit quantization for on-device speech recognition: a
regularization-free approach [19.84792318335999]
General Quantizer (GQ) は、自己調整可能なセントロイドを持つ正規化フリーの「ソフトからハード」圧縮機構である。
GQ は RNN-T と Conformer の両方を sub-8-bit に圧縮でき、いくつかの RNN-T 層では高速で正確な推論のために 1-bit に圧縮できる。
論文 参考訳(メタデータ) (2022-10-17T15:42:26Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。