論文の概要: Parallel Blockwise Knowledge Distillation for Deep Neural Network
Compression
- arxiv url: http://arxiv.org/abs/2012.03096v1
- Date: Sat, 5 Dec 2020 18:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 12:03:18.355301
- Title: Parallel Blockwise Knowledge Distillation for Deep Neural Network
Compression
- Title(参考訳): 深部ニューラルネットワーク圧縮のための並列ブロックワイド知識蒸留
- Authors: Cody Blakeney, Xiaomin Li, Yan Yan, Ziliang Zong
- Abstract要約: 本稿では,深層ニューラルネットワークの蒸留過程を高速化する並列ブロックワイド蒸留アルゴリズムを提案する。
我々のアルゴリズムは, VGG蒸留における3倍の高速化と19%の省エネ, 3.5倍の高速化とResNet蒸留における29%の省エネを実現している。
- 参考スコア(独自算出の注目度): 9.385246051507735
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep neural networks (DNNs) have been extremely successful in solving many
challenging AI tasks in natural language processing, speech recognition, and
computer vision nowadays. However, DNNs are typically computation intensive,
memory demanding, and power hungry, which significantly limits their usage on
platforms with constrained resources. Therefore, a variety of compression
techniques (e.g. quantization, pruning, and knowledge distillation) have been
proposed to reduce the size and power consumption of DNNs. Blockwise knowledge
distillation is one of the compression techniques that can effectively reduce
the size of a highly complex DNN. However, it is not widely adopted due to its
long training time. In this paper, we propose a novel parallel blockwise
distillation algorithm to accelerate the distillation process of sophisticated
DNNs. Our algorithm leverages local information to conduct independent
blockwise distillation, utilizes depthwise separable layers as the efficient
replacement block architecture, and properly addresses limiting factors (e.g.
dependency, synchronization, and load balancing) that affect parallelism. The
experimental results running on an AMD server with four Geforce RTX 2080Ti GPUs
show that our algorithm can achieve 3x speedup plus 19% energy savings on VGG
distillation, and 3.5x speedup plus 29% energy savings on ResNet distillation,
both with negligible accuracy loss. The speedup of ResNet distillation can be
further improved to 3.87 when using four RTX6000 GPUs in a distributed cluster.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、近年、自然言語処理、音声認識、コンピュータビジョンにおいて、多くの困難なAIタスクを解決することに成功している。
しかしながら、DNNは通常、計算集約、メモリ要求、電力不足であり、制約のあるリソースを持つプラットフォーム上での使用を著しく制限している。
そのため、様々な圧縮技術(例)がある。
DNNのサイズと消費電力を減らすため、量子化、プルーニング、および知識蒸留が提案されている。
ブロックワイズ知識蒸留は、高度に複雑なdnnのサイズを効果的に削減できる圧縮技術の1つである。
しかし、訓練期間が長いため広くは採用されていない。
本稿では,高度なdnnの蒸留過程を高速化する並列ブロックワイズ蒸留アルゴリズムを提案する。
アルゴリズムは局所情報を活用して独立なブロックワイド蒸留を行い、分離層を効率的な置換ブロックアーキテクチャとして利用し、制限要因(例)を適切に解決する。
並列性に影響を与える依存性、同期、ロードバランシング。
4つのgeforce rtx 2080ti gpuを搭載したamdサーバ上で行った実験の結果,vgg蒸留における3倍の速度アップと19%の省エネ,3.5倍の速度アップと29%のresnet蒸留での省エネを実現できた。
ResNet蒸留の高速化は、分散クラスタで4つのRTX6000 GPUを使用する場合、さらに3.87に改善できる。
関連論文リスト
- Quality Scalable Quantization Methodology for Deep Learning on Edge [0.20718016474717196]
ディープラーニングアーキテクチャは重い計算を使い、計算エネルギーの大部分は畳み込みニューラルネットワークの畳み込み演算によって取り込まれる。
提案する研究は、ユビキタスコンピューティングデバイス上でエッジコンピューティングで機械学習技術を使用する場合、CNNのエネルギー消費とサイズを削減することである。
LeNetとConvNetsで実施された実験では、ゼロの6%まで増加し、メモリ節約量は82.4919%まで増加し、最先端の精度を維持した。
論文 参考訳(メタデータ) (2024-07-15T22:00:29Z) - Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。
私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。
本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文 参考訳(メタデータ) (2024-07-12T17:37:49Z) - A Converting Autoencoder Toward Low-latency and Energy-efficient DNN
Inference at the Edge [4.11949030493552]
エッジデバイスに適した低レイテンシかつエネルギー効率のDeep Neural Network (DNN) 推論フレームワークであるCBNetを提案する。
変換」オートエンコーダを使用して、ハードイメージを簡単なものに効率よく変換する。
CBNetは推論遅延の4.8倍のスピードアップと79%のエネルギー消費の削減を実現している。
論文 参考訳(メタデータ) (2024-03-11T08:13:42Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - AxoNN: An asynchronous, message-driven parallel framework for
extreme-scale deep learning [1.5301777464637454]
AxoNNは並列ディープラーニングフレームワークで、非同期とメッセージ駆動の実行を利用して、各GPU上でのニューラルネットワーク操作をスケジュールする。
トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、AxoNNはGPUメモリ使用量を4倍削減することができる。
論文 参考訳(メタデータ) (2021-10-25T14:43:36Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - L2PF -- Learning to Prune Faster [57.32153461504626]
本稿では,cnnの冗長フィルタを離散的に学習するマルチタスクのtry-and-learn法と,レイヤの微調整期間の連続的動作を提案する。
ResNet20では、最小精度で圧縮比3.84xを達成しました。
最先端プルーニング法と比較して,GPU時間を1.71倍に短縮した。
論文 参考訳(メタデータ) (2021-01-07T18:13:37Z) - Distillation Guided Residual Learning for Binary Convolutional Neural
Networks [83.6169936912264]
Binary CNN(BCNN)とFloating Point CNN(FCNN)のパフォーマンスギャップを埋めることは難しい。
我々は,この性能差が,BCNNとFCNNの中間特徴写像の間にかなりの残差をもたらすことを観察した。
性能ギャップを最小限に抑えるため,BCNN は FCNN と同様の中間特徴写像を生成する。
このトレーニング戦略、すなわち、FCNNから派生したブロックワイド蒸留損失で各バイナリ畳み込みブロックを最適化することで、BCNNをより効果的に最適化する。
論文 参考訳(メタデータ) (2020-07-10T07:55:39Z) - PERMDNN: Efficient Compressed DNN Architecture with Permuted Diagonal
Matrices [35.90103072918056]
ディープニューラルネットワーク(DNN)は、最も重要で人気のある人工知能(AI)技術として登場した。
モデルサイズの成長は、基盤となるコンピューティングプラットフォームにとって重要なエネルギー効率の課題である。
本稿では、ハードウェアフレンドリーな構造化DNNモデルの生成と実行のための新しいアプローチであるPermDNNを提案する。
論文 参考訳(メタデータ) (2020-04-23T02:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。