論文の概要: Embedded Knowledge Distillation in Depth-level Dynamic Neural Network
- arxiv url: http://arxiv.org/abs/2103.00793v1
- Date: Mon, 1 Mar 2021 06:35:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:12:34.334568
- Title: Embedded Knowledge Distillation in Depth-level Dynamic Neural Network
- Title(参考訳): 奥行きレベル動的ニューラルネットワークにおける埋め込み知識蒸留
- Authors: Shuchang Lyu, Ting-Bing Xu and Guangliang Cheng
- Abstract要約: 類似アーキテクチャの異なる深層サブネットを統合した、エレガントな深層ダイナミックニューラルネットワーク(DDNN)を提案する。
本稿では、DDNNが教師(フル)ネットから複数のサブネットへの意味的知識伝達を実装するためのEKD(Embedded-Knowledge-Distillation)トレーニング機構を設計する。
CIFAR-10、CIFAR-100、ImageNetデータセットの実験では、EKDトレーニングを備えたDDNNのサブネットは、深さレベルの切断または個別トレーニングよりも優れたパフォーマンスを実現します。
- 参考スコア(独自算出の注目度): 8.207403859762044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real applications, different computation-resource devices need
different-depth networks (e.g., ResNet-18/34/50) with high-accuracy. Usually,
existing strategies either design multiple networks (nets) and train them
independently, or utilize compression techniques (e.g., low-rank decomposition,
pruning, and teacher-to-student) to evolve a trained large model into a small
net. These methods are subject to the low-accuracy of small nets, or
complicated training processes induced by the dependence of accompanying
assistive large models. In this article, we propose an elegant Depth-level
Dynamic Neural Network (DDNN) integrated different-depth sub-nets of similar
architectures. Instead of training individual nets with different-depth
configurations, we only train a DDNN to dynamically switch different-depth
sub-nets at runtime using one set of shared weight parameters. To improve the
generalization of sub-nets, we design the Embedded-Knowledge-Distillation (EKD)
training mechanism for the DDNN to implement semantic knowledge transfer from
the teacher (full) net to multiple sub-nets. Specifically, the Kullback-Leibler
divergence is introduced to constrain the posterior class probability
consistency between full-net and sub-net, and self-attention on the same
resolution feature of different depth is addressed to drive more abundant
feature representations of sub-nets. Thus, we can obtain multiple high accuracy
sub-nets simultaneously in a DDNN via the online knowledge distillation in each
training iteration without extra computation cost. Extensive experiments on
CIFAR-10, CIFAR-100, and ImageNet datasets demonstrate that sub-nets in DDNN
with EKD training achieves better performance than the depth-level pruning or
individually training while preserving the original performance of full-net.
- Abstract(参考訳): 実際のアプリケーションでは、異なる計算リソースデバイスは高い精度で異なる深いネットワーク(resnet-18/34/50など)を必要とする。
通常、既存の戦略では、複数のネットワーク(ネット)を設計し、それらを独立に訓練するか、圧縮技術(低ランク分解、刈り込み、教師から教師まで)を使って訓練された大規模モデルを小さなネットに進化させる。
これらの方法は、小網の精度が低いこと、または伴奏型大規模モデルの依存によって引き起こされる複雑な訓練過程の対象となる。
本稿では、類似アーキテクチャの異なる深度サブネットを統合したエレガントな深度レベル動的ニューラルネットワーク(DDNN)を提案する。
異なる深度構成の個々のネットをトレーニングする代わりに、1組の共有重みパラメータを使用して、実行時に異なる深度サブネットを動的に切り替えるようにDDNNを訓練する。
サブネットの一般化を改善するために,教師ネット(フル)から複数のサブネットへの意味的知識伝達を実装するために,DDNNの組込み知識蒸留(EKD)トレーニング機構を設計する。
具体的には、フルネットとサブネット間の後続クラス確率の整合性を制限するためにクルバック・リーブラー分岐を導入し、より豊富なサブネットの特徴表現を駆動するために、異なる深さの同じ解像度特徴に対する自己アテンションに対処する。
これにより、オンライン知識蒸留を通じてDDNNにおいて、余分な計算コストを伴わずに、複数の高精度サブネットを同時に取得できる。
CIFAR-10, CIFAR-100, ImageNetデータセットの大規模な実験により、EDKDトレーニング付きDDNNのサブネットは、フルネットの本来の性能を維持しながら、深さレベルのプルーニングや個別のトレーニングよりも優れたパフォーマンスを達成することが示された。
関連論文リスト
- Cooperative Learning for Cost-Adaptive Inference [3.301728339780329]
提案されたフレームワークは、特定のアーキテクチャに縛られないが、既存のモデル/アーキテクチャを組み込むことができる。
モデルのサイズが多様である間、フルネットワークに匹敵する精度を提供する。
論文 参考訳(メタデータ) (2023-12-13T21:42:27Z) - Automated Heterogeneous Low-Bit Quantization of Multi-Model Deep
Learning Inference Pipeline [2.9342849999747624]
単一ディープラーニング(DL)推論パイプラインに統合されたマルチディープニューラルネットワーク(DNN)は、エッジデプロイメントの課題を提起する。
本稿では,複数のDNNを用いたDL推論パイプラインの自動均一量子化手法を提案する。
論文 参考訳(メタデータ) (2023-11-10T05:02:20Z) - Efficient Implementation of a Multi-Layer Gradient-Free Online-Trainable
Spiking Neural Network on FPGA [0.31498833540989407]
ODESAは、グラデーションを使わずに、エンド・ツー・エンドの多層オンラインローカル教師ありトレーニングを行う最初のネットワークである。
本研究は,ネットワークアーキテクチャと重みとしきい値のオンライントレーニングを,大規模ハードウェア上で効率的に実施可能であることを示す。
論文 参考訳(メタデータ) (2023-05-31T00:34:15Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Encoding the latent posterior of Bayesian Neural Networks for
uncertainty quantification [10.727102755903616]
我々は,複雑なコンピュータビジョンアーキテクチャに適した効率的な深部BNNを目指している。
可変オートエンコーダ(VAE)を利用して、各ネットワーク層におけるパラメータの相互作用と潜在分布を学習する。
我々のアプローチであるLatent-Posterior BNN(LP-BNN)は、最近のBatchEnsemble法と互換性があり、高い効率(トレーニングとテストの両方における計算とメモリ)のアンサンブルをもたらす。
論文 参考訳(メタデータ) (2020-12-04T19:50:09Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - Distributed Training of Deep Learning Models: A Taxonomic Perspective [11.924058430461216]
分散ディープラーニングシステム(DDLS)は、クラスタの分散リソースを利用することで、ディープニューラルネットワークモデルをトレーニングする。
私たちは、独立したマシンのクラスタでディープニューラルネットワークをトレーニングする際の、作業の基本原則に光を当てることを目指しています。
論文 参考訳(メタデータ) (2020-07-08T08:56:58Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。