論文の概要: Go Wide, Then Narrow: Efficient Training of Deep Thin Networks
- arxiv url: http://arxiv.org/abs/2007.00811v2
- Date: Mon, 17 Aug 2020 17:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 22:16:40.090977
- Title: Go Wide, Then Narrow: Efficient Training of Deep Thin Networks
- Title(参考訳): Go Wide, Then Narrow: ディープシンネットワークの効率的なトレーニング
- Authors: Denny Zhou, Mao Ye, Chen Chen, Tianjian Meng, Mingxing Tan, Xiaodan
Song, Quoc Le, Qiang Liu, and Dale Schuurmans
- Abstract要約: 本稿では,深層ネットワークを理論的保証で訓練する効率的な手法を提案する。
我々の方法でのトレーニングにより、ResNet50はResNet101を上回り、BERT BaseはBERT Largeに匹敵する。
- 参考スコア(独自算出の注目度): 62.26044348366186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For deploying a deep learning model into production, it needs to be both
accurate and compact to meet the latency and memory constraints. This usually
results in a network that is deep (to ensure performance) and yet thin (to
improve computational efficiency). In this paper, we propose an efficient
method to train a deep thin network with a theoretic guarantee. Our method is
motivated by model compression. It consists of three stages. First, we
sufficiently widen the deep thin network and train it until convergence. Then,
we use this well-trained deep wide network to warm up (or initialize) the
original deep thin network. This is achieved by layerwise imitation, that is,
forcing the thin network to mimic the intermediate outputs of the wide network
from layer to layer. Finally, we further fine tune this already
well-initialized deep thin network. The theoretical guarantee is established by
using the neural mean field analysis. It demonstrates the advantage of our
layerwise imitation approach over backpropagation. We also conduct large-scale
empirical experiments to validate the proposed method. By training with our
method, ResNet50 can outperform ResNet101, and BERT Base can be comparable with
BERT Large, when ResNet101 and BERT Large are trained under the standard
training procedures as in the literature.
- Abstract(参考訳): プロダクションにディープラーニングモデルをデプロイするには、レイテンシとメモリの制約を満たすために、正確かつコンパクトであることが必要です。
これは通常、深い(性能を保証するために)そして薄い(計算効率を改善するために)ネットワークをもたらす。
本稿では,理論的な保証により,より薄いネットワークを効率的に学習する手法を提案する。
本手法はモデル圧縮によって動機づけられる。
3つの段階からなる。
まず、深層ネットワークを十分に広くし、収束するまでトレーニングする。
次に、このよく訓練されたディープワイドネットワークを使用して、元のディープシンネットワークをウォームアップ(または初期化)します。
これは、層毎の模倣、すなわち薄いネットワークが層から層に至るまでの幅の広いネットワークの中間出力を模倣することによって達成される。
最後に、私たちはこの十分に初期化されたディープシンネットワークをさらに微調整します。
理論的保証は神経平均場解析を用いて確立される。
これは、バックプロパゲーションに対するレイヤーワイドな模倣アプローチの利点を示しています。
また,提案手法を検証するために,大規模実験を行った。
この方法でトレーニングすることで、resnet50はresnet101を上回ることができ、bert baseは、文献のように標準のトレーニング手順の下でresnet101とbert largeをトレーニングする場合、bert largeに匹敵することができる。
関連論文リスト
- Deep Fusion: Efficient Network Training via Pre-trained Initializations [3.9146761527401424]
我々は、より小さなネットワークの初期化を事前訓練したネットワークトレーニングの効率的なアプローチであるDeep Fusionを提案する。
我々の実験は、Deep Fusionが訓練プロセスを加速するだけでなく、計算要求を減少させる実用的で効果的なアプローチであることを示す。
我々は,Deep Fusionの最適利用を導く理論的枠組みを検証し,トレーニング時間と資源消費の両方を著しく削減することを示した。
論文 参考訳(メタデータ) (2023-06-20T21:30:54Z) - Comparison between layer-to-layer network training and conventional
network training using Deep Convolutional Neural Networks [0.6853165736531939]
畳み込みニューラルネットワーク(CNN)は、データから特徴を抽出する効果のため、様々なアプリケーションで広く利用されている。
層間学習法を提案し,その性能を従来の訓練法と比較する。
実験の結果, 層間学習法は両モデルの従来の訓練法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-27T14:29:18Z) - Layer Folding: Neural Network Depth Reduction using Activation
Linearization [0.0]
現代のデバイスは高いレベルの並列性を示すが、リアルタイムレイテンシはネットワークの深さに大きく依存している。
線形でない活性化を除去できるかどうかを学習し、連続的な線形層を1つに折り畳む方法を提案する。
我々は, CIFAR-10 と CIFAR-100 で事前訓練されたネットワークに適用し, それら全てを同様の深さの浅い形に変換できることを示す。
論文 参考訳(メタデータ) (2021-06-17T08:22:46Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - BCNet: Searching for Network Width with Bilaterally Coupled Network [56.14248440683152]
この問題に対処するため、BCNet(Bilaterally Coupled Network)と呼ばれる新しいスーパーネットを導入する。
BCNetでは、各チャネルは高度に訓練され、同じ量のネットワーク幅を担っているため、ネットワーク幅をより正確に評価することができる。
提案手法は,他のベースライン手法と比較して,最先端あるいは競合的な性能を実現する。
論文 参考訳(メタデータ) (2021-05-21T18:54:03Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Network Pruning via Resource Reallocation [75.85066435085595]
rEsource rEalLocation (PEEL) を経由したネットワーク・プルーニングという,シンプルで効果的なチャネル・プルーニング手法を提案する。
PEELは、最初に事前に定義されたバックボーンを構築し、その上でリソースの移動を行い、少ない情報層からより重要な層へ1ラウンドでパラメータをシフトする。
実験結果から,PEELによって発見された構造は,各種プルーニング条件下での最先端のプルーニングアルゴリズムと競合する性能を示した。
論文 参考訳(メタデータ) (2021-03-02T16:28:10Z) - Training Larger Networks for Deep Reinforcement Learning [18.193180866998333]
ネットワーク容量の増加は性能を向上しないことを示す。
本稿では,1)DenseNet接続の広いネットワーク,2)RLのトレーニングから表現学習を分離する,3)オーバーフィッティング問題を軽減するための分散トレーニング手法を提案する。
この3倍の手法を用いることで、非常に大きなネットワークをトレーニングでき、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T02:16:54Z) - Sparsity in Deep Learning: Pruning and growth for efficient inference
and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。
ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文 参考訳(メタデータ) (2021-01-31T22:48:50Z) - Picking Winning Tickets Before Training by Preserving Gradient Flow [9.67608102763644]
効率的なトレーニングには,ネットワーク内の勾配流の保存が必要である,と我々は主張する。
CIFAR-10, CIFAR-100, Tiny-ImageNet, ImageNetにおいて, 提案手法の有効性を実験的に検討した。
論文 参考訳(メタデータ) (2020-02-18T05:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。