論文の概要: Automatic Joint Structured Pruning and Quantization for Efficient Neural Network Training and Compression
- arxiv url: http://arxiv.org/abs/2502.16638v1
- Date: Sun, 23 Feb 2025 16:28:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:59:02.951073
- Title: Automatic Joint Structured Pruning and Quantization for Efficient Neural Network Training and Compression
- Title(参考訳): ニューラルネットワークの効率的なトレーニングと圧縮のための自動構成型プルーニングと量子化
- Authors: Xiaoyi Qu, David Aponte, Colby Banbury, Daniel P. Robinson, Tianyu Ding, Kazuhito Koishida, Ilya Zharkov, Tianyi Chen,
- Abstract要約: 構造化プルーニングと量子化は、ディープニューラルネットワーク(DNN)のサイズを減らすために使用される基本技術である
これらのテクニックを共同最適化を通じて併用することで、より小さく高品質なモデルを作成することができる。
本稿では,任意のDNN上で協調的構造化プルーニングと量子化学習を自動かつ効率的に行うフレームワークGETAを提案する。
- 参考スコア(独自算出の注目度): 44.35542987414442
- License:
- Abstract: Structured pruning and quantization are fundamental techniques used to reduce the size of deep neural networks (DNNs) and typically are applied independently. Applying these techniques jointly via co-optimization has the potential to produce smaller, high-quality models. However, existing joint schemes are not widely used because of (1) engineering difficulties (complicated multi-stage processes), (2) black-box optimization (extensive hyperparameter tuning to control the overall compression), and (3) insufficient architecture generalization. To address these limitations, we present the framework GETA, which automatically and efficiently performs joint structured pruning and quantization-aware training on any DNNs. GETA introduces three key innovations: (i) a quantization-aware dependency graph (QADG) that constructs a pruning search space for generic quantization-aware DNN, (ii) a partially projected stochastic gradient method that guarantees layerwise bit constraints are satisfied, and (iii) a new joint learning strategy that incorporates interpretable relationships between pruning and quantization. We present numerical experiments on both convolutional neural networks and transformer architectures that show that our approach achieves competitive (often superior) performance compared to existing joint pruning and quantization methods.
- Abstract(参考訳): 構造化プルーニングと量子化は、ディープニューラルネットワーク(DNN)のサイズを減らすために使用される基本技術であり、通常は独立して適用される。
これらのテクニックを共同最適化を通じて併用することで、より小さく高品質なモデルを作成することができる。
しかし,(1)工学的困難(複雑な多段階プロセス),(2)ブラックボックス最適化(全体圧縮を制御するためのハイパーパラメータチューニング),(3)アーキテクチャの一般化が不十分なことなどから,既存のジョイントスキームは広く使われていない。
これらの制約に対処するために,任意のDNN上で協調的構造化プルーニングと量子化学習を自動かつ効率的に行うフレームワークGETAを提案する。
GETAは3つの重要なイノベーションを紹介します。
(i)汎用量子化対応DNNのためのプルーニング検索空間を構築する量子化対応依存グラフ(QADG)
(二)層状ビット制約を保証する部分射影確率勾配法を満足し、
(三)刈り取りと量子化の解釈可能な関係を取り入れた新しい共同学習戦略。
本稿では,畳み込みニューラルネットワークと変圧器アーキテクチャの双方に関する数値実験を行い,既存の連成プルーニング法や量子化法と比較して,我々の手法が競争力(しばしば優れた)性能を発揮することを示した。
関連論文リスト
- Unified Stochastic Framework for Neural Network Quantization and Pruning [11.721939479875271]
本稿では,パス追従アルゴリズムを用いて量子化とプルーニングを後処理する統合フレームワークを提案する。
提案手法は,経路追従量子化法(SPFQ)に基づいて,プルーニングおよび低ビット量子化方式の適用性を向上させる。
論文 参考訳(メタデータ) (2024-12-24T05:38:01Z) - OTOv3: Automatic Architecture-Agnostic Neural Network Training and
Compression from Structured Pruning to Erasing Operators [57.145175475579315]
このトピックは、構造化プルーニングからニューラルアーキテクチャサーチまで、さまざまなテクニックにまたがっている。
第3世代のOTOv3(Noth-Train-Once)を導入する。
我々は,構造化プルーニングとニューラルアーキテクチャ探索におけるOTOv3の有効性を実証した。
論文 参考訳(メタデータ) (2023-12-15T00:22:55Z) - HKNAS: Classification of Hyperspectral Imagery Based on Hyper Kernel
Neural Architecture Search [104.45426861115972]
設計したハイパーカーネルを利用して,構造パラメータを直接生成することを提案する。
我々は1次元または3次元の畳み込みを伴う画素レベルの分類と画像レベルの分類を別々に行う3種類のネットワークを得る。
6つの公開データセットに関する一連の実験は、提案手法が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2023-04-23T17:27:40Z) - AutoQNN: An End-to-End Framework for Automatically Quantizing Neural
Networks [6.495218751128902]
我々は,人的負担を伴わずに,異なるスキームやビット幅を用いて異なるレイヤを自動的に定量化する,AutoQNNというエンドツーエンドフレームワークを提案する。
QPLは、量子化スキームのビット幅を再パラメータ化することで、混合精度ポリシーを学習する最初の方法である。
QAGは、任意のアーキテクチャを手動で介入することなく、対応する量子化アーキテクチャに変換するように設計されている。
論文 参考訳(メタデータ) (2023-04-07T11:14:21Z) - Training Multi-bit Quantized and Binarized Networks with A Learnable
Symmetric Quantizer [1.9659095632676098]
リソース制約のあるデバイスやクラウドプラットフォームにそれらをデプロイするには、ディープニューラルネットワークの重み付けとアクティベーションの定量化が不可欠だ。
双対化は量子化の特別な場合であるが、この極端な場合はしばしばいくつかの訓練の困難をもたらす。
双対化の困難を克服するため,uniq と呼ばれる統一量子化フレームワークを開発した。
論文 参考訳(メタデータ) (2021-04-01T02:33:31Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - Optimal Gradient Quantization Condition for Communication-Efficient
Distributed Training [99.42912552638168]
勾配の通信は、コンピュータビジョンアプリケーションで複数のデバイスでディープニューラルネットワークをトレーニングするのに費用がかかる。
本研究は,textbfANY勾配分布に対する二値および多値勾配量子化の最適条件を導出する。
最適条件に基づいて, 偏差BinGradと非偏差ORQの2値勾配量子化と多値勾配量子化の2つの新しい量子化手法を開発した。
論文 参考訳(メタデータ) (2020-02-25T18:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。