論文の概要: Stochastic Precision Ensemble: Self-Knowledge Distillation for Quantized
Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2009.14502v1
- Date: Wed, 30 Sep 2020 08:38:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 22:42:47.451437
- Title: Stochastic Precision Ensemble: Self-Knowledge Distillation for Quantized
Deep Neural Networks
- Title(参考訳): 確率的精度アンサンブル:量子化深部ニューラルネットワークのための自己知識蒸留
- Authors: Yoonho Boo, Sungho Shin, Jungwook Choi, and Wonyong Sung
- Abstract要約: エッジデバイスへの展開のために、ディープニューラルネットワーク(QDNN)の量子化が活発に研究されている。
近年の研究では、量子化されたネットワークの性能を向上させるために知識蒸留(KD)法が採用されている。
本研究では,QDNN(SPEQ)のためのアンサンブルトレーニングを提案する。
- 参考スコア(独自算出の注目度): 27.533162215182422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quantization of deep neural networks (QDNNs) has been actively studied
for deployment in edge devices. Recent studies employ the knowledge
distillation (KD) method to improve the performance of quantized networks. In
this study, we propose stochastic precision ensemble training for QDNNs (SPEQ).
SPEQ is a knowledge distillation training scheme; however, the teacher is
formed by sharing the model parameters of the student network. We obtain the
soft labels of the teacher by changing the bit precision of the activation
stochastically at each layer of the forward-pass computation. The student model
is trained with these soft labels to reduce the activation quantization noise.
The cosine similarity loss is employed, instead of the KL-divergence, for KD
training. As the teacher model changes continuously by random bit-precision
assignment, it exploits the effect of stochastic ensemble KD. SPEQ outperforms
the existing quantization training methods in various tasks, such as image
classification, question-answering, and transfer learning without the need for
cumbersome teacher networks.
- Abstract(参考訳): 深層ニューラルネットワーク(QDNN)の量子化はエッジデバイスへの展開のために活発に研究されている。
近年,量子化ネットワークの性能向上のために知識蒸留法 (kd) が採用されている。
本研究では,QDNN(SPEQ)のための確率的精度アンサンブルトレーニングを提案する。
speqは知識蒸留訓練であるが、教師は生徒ネットワークのモデルパラメータを共有することによって形成される。
フォワードパス計算の各層におけるアクティベーションのビット精度を確率的に変化させることにより,教師のソフトラベルを得る。
学生モデルは、アクティベーション量子化ノイズを低減するために、これらのソフトラベルで訓練される。
kdトレーニングでは、kl-divergenceの代わりにコサイン類似性損失が用いられる。
教師モデルはランダムなビット精度の割り当てによって連続的に変化するため、確率的アンサンブルKDの効果を利用する。
SPEQは、画像分類、質問応答、伝達学習などの様々なタスクにおいて、面倒な教師ネットワークを必要とせず、既存の量子化訓練方法より優れている。
関連論文リスト
- AICSD: Adaptive Inter-Class Similarity Distillation for Semantic
Segmentation [12.92102548320001]
本稿では,知識蒸留を目的としたICSD (Inter-Class similarity Distillation) を提案する。
提案手法は,教師ネットワークから生徒ネットワークへの高次関係を,ネットワーク出力から各クラス毎のクラス内分布を独立に計算することによって伝達する。
セマンティックセグメンテーションのためのよく知られた2つのデータセットであるCityscapesとPascal VOC 2012の実験により、提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-08-08T13:17:20Z) - IF2Net: Innately Forgetting-Free Networks for Continual Learning [49.57495829364827]
継続的な学習は、以前に学んだ知識に干渉することなく、新しい概念を漸進的に吸収することができる。
ニューラルネットワークの特性に触発され,本研究は,IF2Net(Innately Forgetting-free Network)の設計方法について検討した。
IF2Netは、1つのネットワークがテスト時にタスクのIDを告げることなく、本質的に無制限のマッピングルールを学習することを可能にする。
論文 参考訳(メタデータ) (2023-06-18T05:26:49Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Quantization-aware Interval Bound Propagation for Training Certifiably
Robust Quantized Neural Networks [58.195261590442406]
我々は、逆向きに頑健な量子化ニューラルネットワーク(QNN)の訓練と証明の課題について検討する。
近年の研究では、浮動小数点ニューラルネットワークが量子化後の敵攻撃に対して脆弱であることが示されている。
本稿では、堅牢なQNNをトレーニングするための新しい方法であるQA-IBP(quantization-aware interval bound propagation)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:32:38Z) - Training Quantised Neural Networks with STE Variants: the Additive Noise
Annealing Algorithm [16.340620299847384]
量子化されたニューラルネットワーク(QNN)のトレーニングは、重みと特徴が断片的な定数関数によって出力されるため、微分不可能な問題である。
標準的な解決策は、推論と計算のステップで異なる関数を使用するストレートスルー推定器(STE)を適用することである。
トレーニングネットワークのタスク精度を最大化することを目的とした、いくつかのSTE変種が文献で提案されている。
論文 参考訳(メタデータ) (2022-03-21T20:14:27Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Data-Free Knowledge Distillation with Soft Targeted Transfer Set
Synthesis [8.87104231451079]
知識蒸留(KD)は、ディープニューラルネットワーク圧縮に有効なアプローチであることが証明されている。
従来のkdでは、転送された知識は通常、トレーニングサンプルを教師ネットワークに供給することで得られる。
元のトレーニングデータセットは、ストレージコストやプライバシーの問題のために常に利用できるとは限らない。
本研究では,教師の中間特徴空間をモデル化し,データフリーなKD手法を提案する。
論文 参考訳(メタデータ) (2021-04-10T22:42:14Z) - Embedded Knowledge Distillation in Depth-level Dynamic Neural Network [8.207403859762044]
類似アーキテクチャの異なる深層サブネットを統合した、エレガントな深層ダイナミックニューラルネットワーク(DDNN)を提案する。
本稿では、DDNNが教師(フル)ネットから複数のサブネットへの意味的知識伝達を実装するためのEKD(Embedded-Knowledge-Distillation)トレーニング機構を設計する。
CIFAR-10、CIFAR-100、ImageNetデータセットの実験では、EKDトレーニングを備えたDDNNのサブネットは、深さレベルの切断または個別トレーニングよりも優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-01T06:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。