論文の概要: Principal Component Networks: Parameter Reduction Early in Training
- arxiv url: http://arxiv.org/abs/2006.13347v1
- Date: Tue, 23 Jun 2020 21:40:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 21:23:39.742397
- Title: Principal Component Networks: Parameter Reduction Early in Training
- Title(参考訳): 主成分ネットワーク: 訓練初期におけるパラメータ削減
- Authors: Roger Waleffe and Theodoros Rekatsinas
- Abstract要約: パラメータ化されたネットワークと同じ性能を示す小さなネットワークを見つける方法を示す。
我々はPCAを用いて、層入力の高分散の基盤を見つけ、これらの方向を用いて層重みを表現する。
また、ResNet-20 PCNは、より高速なトレーニングを行いながら、Deep ResNet-110ネットワークより優れていることを示す。
- 参考スコア(独自算出の注目度): 10.14522349959932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works show that overparameterized networks contain small subnetworks
that exhibit comparable accuracy to the full model when trained in isolation.
These results highlight the potential to reduce training costs of deep neural
networks without sacrificing generalization performance. However, existing
approaches for finding these small networks rely on expensive multi-round
train-and-prune procedures and are non-practical for large data sets and
models. In this paper, we show how to find small networks that exhibit the same
performance as their overparameterized counterparts after only a few training
epochs. We find that hidden layer activations in overparameterized networks
exist primarily in subspaces smaller than the actual model width. Building on
this observation, we use PCA to find a basis of high variance for layer inputs
and represent layer weights using these directions. We eliminate all weights
not relevant to the found PCA basis and term these network architectures
Principal Component Networks. On CIFAR-10 and ImageNet, we show that PCNs train
faster and use less energy than overparameterized models, without accuracy
loss. We find that our transformation leads to networks with up to 23.8x fewer
parameters, with equal or higher end-model accuracy---in some cases we observe
improvements up to 3%. We also show that ResNet-20 PCNs outperform deep
ResNet-110 networks while training faster.
- Abstract(参考訳): 近年の研究では、過パラメータネットワークには、分離して訓練された場合のフルモデルに匹敵する精度を示す小さなサブネットワークが含まれていることが示されている。
これらの結果は、一般化性能を犠牲にすることなく、ディープニューラルネットワークのトレーニングコストを削減する可能性を強調している。
しかし、これらの小さなネットワークを見つけるための既存のアプローチは、高価なマルチラウンド列車とpruneの手順に依存しており、大規模なデータセットやモデルでは実践的ではない。
本稿では,ほんの数回の訓練期間の後に,過度にパラメータ化されたネットワークと同じ性能を示す小さなネットワークを見つける方法を示す。
過パラメータ化ネットワークにおける隠蔽層活性化は、主に実際のモデル幅よりも小さい部分空間に存在する。
この観測に基づいて,PCAを用いて層入力の高分散の基盤を見つけ,これらの方向を用いて層重みを表現する。
我々は、PCAベースに関係のない全ての重みを排除し、これらのネットワークアーキテクチャを主成分ネットワークと呼ぶ。
CIFAR-10 と ImageNet では,PCN は過パラメータモデルよりも高速でエネルギーを消費し,精度を損なわないことを示した。
私たちのトランスフォーメーションは、パラメータが最大で23.8倍、エンドツーエンドモデルの精度が同等あるいは高いネットワークに結びつくことが分かりました。
また、ResNet-20 PCNは、より高速なトレーニングを行いながら、Deep ResNet-110ネットワークより優れていることを示す。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - LilNetX: Lightweight Networks with EXtreme Model Compression and
Structured Sparsification [36.651329027209634]
LilNetXは、ニューラルネットワークのためのエンドツーエンドのトレーニング可能なテクニックである。
特定の精度-レート-計算トレードオフを持つ学習モデルを可能にする。
論文 参考訳(メタデータ) (2022-04-06T17:59:10Z) - An Experimental Study of the Impact of Pre-training on the Pruning of a
Convolutional Neural Network [0.0]
近年、ディープニューラルネットワークは様々なアプリケーション領域で広く成功している。
ディープニューラルネットワークは通常、ネットワークの重みに対応する多数のパラメータを含む。
プルーニング法は特に、無関係な重みを識別して取り除くことにより、パラメータセットのサイズを減らそうとしている。
論文 参考訳(メタデータ) (2021-12-15T16:02:15Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Channel Planting for Deep Neural Networks using Knowledge Distillation [3.0165431987188245]
我々は,植林と呼ばれる深層ニューラルネットワークのための新しいインクリメンタルトレーニングアルゴリズムを提案する。
本システムでは,ネットワーク性能向上のためのパラメータの少ない最適ネットワークアーキテクチャを探索できる。
CIFAR-10/100 や STL-10 などの異なるデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2020-11-04T16:29:59Z) - HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。
提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。
トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文 参考訳(メタデータ) (2020-08-24T04:08:48Z) - Go Wide, Then Narrow: Efficient Training of Deep Thin Networks [62.26044348366186]
本稿では,深層ネットワークを理論的保証で訓練する効率的な手法を提案する。
我々の方法でのトレーニングにより、ResNet50はResNet101を上回り、BERT BaseはBERT Largeに匹敵する。
論文 参考訳(メタデータ) (2020-07-01T23:34:35Z) - Adjoined Networks: A Training Paradigm with Applications to Network
Compression [3.995047443480282]
本稿では、元のベースネットワークとより小さな圧縮ネットワークの両方を同時にトレーニングする学習パラダイムであるAdjoined Networks(AN)を紹介する。
ベースネットワークとしてResNet-50を使用すると、画像Netデータセット上の1.8Mパラメータと1.6GFLOPで71.8%のトップ-1の精度が達成される。
我々は,ニューラルネットワーク探索を用いて,より小さなネットワークの各レイヤの幅と重みを共同で学習し,ANを増強する訓練パラダイムであるDaniable Adjoined Networks (DAN)を提案する。
論文 参考訳(メタデータ) (2020-06-10T02:48:16Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。