論文の概要: Channel Planting for Deep Neural Networks using Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2011.02390v1
- Date: Wed, 4 Nov 2020 16:29:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 21:37:48.260101
- Title: Channel Planting for Deep Neural Networks using Knowledge Distillation
- Title(参考訳): 知識蒸留を用いたディープニューラルネットワークのためのチャネルプランティング
- Authors: Kakeru Mitsuno, Yuichiro Nomura and Takio Kurita
- Abstract要約: 我々は,植林と呼ばれる深層ニューラルネットワークのための新しいインクリメンタルトレーニングアルゴリズムを提案する。
本システムでは,ネットワーク性能向上のためのパラメータの少ない最適ネットワークアーキテクチャを探索できる。
CIFAR-10/100 や STL-10 などの異なるデータセットに対する提案手法の有効性を評価する。
- 参考スコア(独自算出の注目度): 3.0165431987188245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, deeper and wider neural networks have shown excellent
performance in computer vision tasks, while their enormous amount of parameters
results in increased computational cost and overfitting. Several methods have
been proposed to compress the size of the networks without reducing network
performance. Network pruning can reduce redundant and unnecessary parameters
from a network. Knowledge distillation can transfer the knowledge of deeper and
wider networks to smaller networks. The performance of the smaller network
obtained by these methods is bounded by the predefined network. Neural
architecture search has been proposed, which can search automatically the
architecture of the networks to break the structure limitation. Also, there is
a dynamic configuration method to train networks incrementally as sub-networks.
In this paper, we present a novel incremental training algorithm for deep
neural networks called planting. Our planting can search the optimal network
architecture with smaller number of parameters for improving the network
performance by augmenting channels incrementally to layers of the initial
networks while keeping the earlier trained parameters fixed. Also, we propose
using the knowledge distillation method for training the channels planted. By
transferring the knowledge of deeper and wider networks, we can grow the
networks effectively and efficiently. We evaluate the effectiveness of the
proposed method on different datasets such as CIFAR-10/100 and STL-10. For the
STL-10 dataset, we show that we are able to achieve comparable performance with
only 7% parameters compared to the larger network and reduce the overfitting
caused by a small amount of the data.
- Abstract(参考訳): 近年、より深く、より広いニューラルネットワークはコンピュータビジョンタスクにおいて優れた性能を示しているが、その膨大なパラメータは計算コストとオーバーフィットをもたらす。
ネットワーク性能を低下させることなく,ネットワークサイズを圧縮する方法が提案されている。
ネットワークプルーニングは、ネットワークから冗長かつ不要なパラメータを削減できる。
知識蒸留はより深いネットワークの知識をより小さなネットワークに伝達することができる。
これらの手法により得られたより小さなネットワークの性能は、予め定義されたネットワークによって制限される。
ニューラルネットワーク検索が提案されており、ネットワークのアーキテクチャを自動的に検索して、構造制限を破ることができる。
また、ネットワークをサブネットワークとしてインクリメンタルにトレーニングするための動的構成方法もある。
本稿では,植え付けと呼ばれる深層ニューラルネットワークのための新しいインクリメンタルトレーニングアルゴリズムを提案する。
初期ネットワークの層にチャネルを段階的に増やし、初期のトレーニングされたパラメータを固定することで、ネットワーク性能を改善するために、より少ないパラメータで最適なネットワークアーキテクチャを探索することができる。
また, 栽培チャネルの訓練に知識蒸留法を適用することを提案する。
より深いネットワークの知識を伝達することで、ネットワークを効果的かつ効率的に成長させることができる。
CIFAR-10/100 や STL-10 などの異なるデータセットに対する提案手法の有効性を評価する。
STL-10データセットでは、大きなネットワークに比べて7%のパラメータで同等の性能を達成でき、少量のデータによるオーバーフィッティングを低減できることを示す。
関連論文リスト
- A Faster Approach to Spiking Deep Convolutional Neural Networks [0.0]
スパイキングニューラルネットワーク(SNN)は、現在のディープニューラルネットワークよりも脳に近いダイナミクスを持つ。
ネットワークのランタイムと精度を改善するために,従来の作業に基づくネットワーク構造を提案する。
論文 参考訳(メタデータ) (2022-10-31T16:13:15Z) - Group Fisher Pruning for Practical Network Compression [58.25776612812883]
本稿では,様々な複雑な構造に応用可能な汎用チャネルプルーニング手法を提案する。
我々は、単一チャネルと結合チャネルの重要性を評価するために、フィッシャー情報に基づく統一されたメトリクスを導出する。
提案手法は,結合チャネルを含む任意の構造をプルークするために利用できる。
論文 参考訳(メタデータ) (2021-08-02T08:21:44Z) - Layer Folding: Neural Network Depth Reduction using Activation
Linearization [0.0]
現代のデバイスは高いレベルの並列性を示すが、リアルタイムレイテンシはネットワークの深さに大きく依存している。
線形でない活性化を除去できるかどうかを学習し、連続的な線形層を1つに折り畳む方法を提案する。
我々は, CIFAR-10 と CIFAR-100 で事前訓練されたネットワークに適用し, それら全てを同様の深さの浅い形に変換できることを示す。
論文 参考訳(メタデータ) (2021-06-17T08:22:46Z) - Firefly Neural Architecture Descent: a General Approach for Growing
Neural Networks [50.684661759340145]
firefly neural architecture descentは、ニューラルネットワークを漸進的かつ動的に成長させるための一般的なフレームワークである。
ホタルの降下は、より広く、より深くネットワークを柔軟に成長させ、正確だがリソース効率のよいニューラルアーキテクチャを学習するために応用できることを示す。
特に、サイズは小さいが、最先端の手法で学習したネットワークよりも平均精度が高いネットワークを学習する。
論文 参考訳(メタデータ) (2021-02-17T04:47:18Z) - Sparsity in Deep Learning: Pruning and growth for efficient inference
and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。
ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文 参考訳(メタデータ) (2021-01-31T22:48:50Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - Wasserstein Routed Capsule Networks [90.16542156512405]
複雑なタスクに対処できる新しいパラメータ効率の良いカプセルアーキテクチャを提案する。
我々のネットワークはCIFAR-10で他のカプセルのアプローチを1.2%以上上回ります。
論文 参考訳(メタデータ) (2020-07-22T14:38:05Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - Knapsack Pruning with Inner Distillation [11.04321604965426]
そこで本研究では,プルーンドネットワークの最終精度を最適化する新しいプルーニング手法を提案する。
ネットワークの高レベル構造を維持しながら、ネットワークチャネルを熟考する。
提案手法は,ResNetバックボーンを用いたImageNet,CIFAR-10,CIFAR-100における最先端のプルーニング結果をもたらす。
論文 参考訳(メタデータ) (2020-02-19T16:04:48Z) - Differentiable Sparsification for Deep Neural Networks [0.0]
本稿では,ディープニューラルネットワークのための完全微分可能なスペーシフィケーション手法を提案する。
提案手法は,ネットワークのスパース化構造と重み付けの両方をエンドツーエンドに学習することができる。
私たちの知る限りでは、これが最初の完全に差別化可能なスパーシフィケーション手法である。
論文 参考訳(メタデータ) (2019-10-08T03:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。