論文の概要: PQK: Model Compression via Pruning, Quantization, and Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2106.14681v1
- Date: Fri, 25 Jun 2021 07:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 04:32:43.336287
- Title: PQK: Model Compression via Pruning, Quantization, and Knowledge
Distillation
- Title(参考訳): PQK: プルーニング、量子化、知識蒸留によるモデル圧縮
- Authors: Jangho Kim, Simyung Chang and Nojun Kwak
- Abstract要約: 本稿では, プルーニング, 量子化, 知識蒸留プロセスからなるPQKと呼ばれる新しいモデル圧縮手法を提案する。
PQKは、教師モデルを事前訓練することなく、より良い学生ネットワークをトレーニングするための教師ネットワークを構築するために、刈り込みプロセスで刈り取られた重要でない重量を利用する。
本手法を認識モデルに適用し,キーワードスポッティング(KWS)と画像認識におけるPQKの有効性を検証する。
- 参考スコア(独自算出の注目度): 43.45412122086056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As edge devices become prevalent, deploying Deep Neural Networks (DNN) on
edge devices has become a critical issue. However, DNN requires a high
computational resource which is rarely available for edge devices. To handle
this, we propose a novel model compression method for the devices with limited
computational resources, called PQK consisting of pruning, quantization, and
knowledge distillation (KD) processes. Unlike traditional pruning and KD, PQK
makes use of unimportant weights pruned in the pruning process to make a
teacher network for training a better student network without pre-training the
teacher model. PQK has two phases. Phase 1 exploits iterative pruning and
quantization-aware training to make a lightweight and power-efficient model. In
phase 2, we make a teacher network by adding unimportant weights unused in
phase 1 to a pruned network. By using this teacher network, we train the pruned
network as a student network. In doing so, we do not need a pre-trained teacher
network for the KD framework because the teacher and the student networks
coexist within the same network. We apply our method to the recognition model
and verify the effectiveness of PQK on keyword spotting (KWS) and image
recognition.
- Abstract(参考訳): エッジデバイスが普及するにつれて、エッジデバイスにディープニューラルネットワーク(DNN)をデプロイすることが重要な問題となっている。
しかし、DNNはエッジデバイスではほとんど利用できない高い計算資源を必要とする。
そこで本稿では, プルーニング, 量子化, 知識蒸留(KD)プロセスからなるPQKと呼ばれる, 限られた計算資源を持つデバイスを対象とした新しいモデル圧縮手法を提案する。
従来のプルーニングやKDとは異なり、PQKはプルーニング過程において重要でない重みを利用して、教師モデルを事前訓練することなく、より良い学生ネットワークをトレーニングするための教師ネットワークを構築している。
PQKには2つのフェーズがある。
フェーズ1は、反復的プルーニングと量子化対応トレーニングを利用して、軽量で電力効率の良いモデルを作成する。
第2相では、第1相未使用の重要度重みを刈り込みネットワークに付加して教師ネットワークを構築する。
この教師ネットワークを用いて,学生ネットワークとして刈り取られたネットワークを訓練する。
このような場合、教師と学生のネットワークが同一ネットワーク内で共存するため、KDフレームワーク用に事前学習した教師ネットワークは必要ない。
本手法を認識モデルに適用し,キーワードスポッティング(KWS)と画像認識におけるPQKの有効性を検証する。
関連論文リスト
- Adaptive Teaching with Shared Classifier for Knowledge Distillation [6.03477652126575]
知識蒸留(KD)は、教師ネットワークから学生ネットワークへ知識を伝達する技術である。
共有分類器(ATSC)を用いた適応型授業を提案する。
提案手法は,CIFAR-100とImageNetのデータセットに対して,単教師と多教師の両方のシナリオで最新の結果が得られる。
論文 参考訳(メタデータ) (2024-06-12T08:51:08Z) - BD-KD: Balancing the Divergences for Online Knowledge Distillation [12.27903419909491]
我々はBD-KD: オンライン知識蒸留のための多様性のバランスをとることを提案する。
逆発散と前方発散の適応的バランスは、訓練戦略の焦点をコンパクトな学生ネットワークにシフトさせることを示す。
本研究では,このバランス設計を学生蒸留損失のレベルで実施することにより,コンパクトな学生ネットワークの性能精度と校正性を両立させることを実証する。
論文 参考訳(メタデータ) (2022-12-25T22:27:32Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Excess Risk of Two-Layer ReLU Neural Networks in Teacher-Student
Settings and its Superiority to Kernel Methods [58.44819696433327]
教師回帰モデルにおける2層ReLUニューラルネットワークのリスクについて検討する。
学生ネットワークは、どの解法よりも確実に優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-30T02:51:36Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Stochastic Precision Ensemble: Self-Knowledge Distillation for Quantized
Deep Neural Networks [27.533162215182422]
エッジデバイスへの展開のために、ディープニューラルネットワーク(QDNN)の量子化が活発に研究されている。
近年の研究では、量子化されたネットワークの性能を向上させるために知識蒸留(KD)法が採用されている。
本研究では,QDNN(SPEQ)のためのアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-09-30T08:38:37Z) - HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。
提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。
トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文 参考訳(メタデータ) (2020-08-24T04:08:48Z) - Adjoined Networks: A Training Paradigm with Applications to Network
Compression [3.995047443480282]
本稿では、元のベースネットワークとより小さな圧縮ネットワークの両方を同時にトレーニングする学習パラダイムであるAdjoined Networks(AN)を紹介する。
ベースネットワークとしてResNet-50を使用すると、画像Netデータセット上の1.8Mパラメータと1.6GFLOPで71.8%のトップ-1の精度が達成される。
我々は,ニューラルネットワーク探索を用いて,より小さなネットワークの各レイヤの幅と重みを共同で学習し,ANを増強する訓練パラダイムであるDaniable Adjoined Networks (DAN)を提案する。
論文 参考訳(メタデータ) (2020-06-10T02:48:16Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z) - A "Network Pruning Network" Approach to Deep Model Compression [62.68120664998911]
マルチタスクネットワークを用いた深部モデル圧縮のためのフィルタプルーニング手法を提案する。
我々のアプローチは、プレナーネットワークを学習して、事前訓練されたターゲットネットワークを訓練することに基づいている。
提案手法によって生成された圧縮モデルは汎用的であり,特別なハードウェア/ソフトウェアのサポートは不要である。
論文 参考訳(メタデータ) (2020-01-15T20:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。