論文の概要: The Early Phase of Neural Network Training
- arxiv url: http://arxiv.org/abs/2002.10365v1
- Date: Mon, 24 Feb 2020 16:51:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 02:36:46.043189
- Title: The Early Phase of Neural Network Training
- Title(参考訳): ニューラルネットワークトレーニングの初期段階
- Authors: Jonathan Frankle and David J. Schwab and Ari S. Morcos
- Abstract要約: 近年の研究では、ニューラルネットワーク学習の重要な側面が、トレーニングのごく初期のイテレーションまたはエポックで起こっていることが示されている。
ここでは、このトレーニングの初期段階において、ディープニューラルネットワークが実施する変化について検討する。
このフレームワークでは、数百回反復しても重み分布が非独立であることの兆候を維持しながら、無作為な重みで再起動するには、ディープネットワークが堅牢でないことが分かる。
- 参考スコア(独自算出の注目度): 36.99654568587426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown that many important aspects of neural network
learning take place within the very earliest iterations or epochs of training.
For example, sparse, trainable sub-networks emerge (Frankle et al., 2019),
gradient descent moves into a small subspace (Gur-Ari et al., 2018), and the
network undergoes a critical period (Achille et al., 2019). Here, we examine
the changes that deep neural networks undergo during this early phase of
training. We perform extensive measurements of the network state during these
early iterations of training and leverage the framework of Frankle et al.
(2019) to quantitatively probe the weight distribution and its reliance on
various aspects of the dataset. We find that, within this framework, deep
networks are not robust to reinitializing with random weights while maintaining
signs, and that weight distributions are highly non-independent even after only
a few hundred iterations. Despite this behavior, pre-training with blurred
inputs or an auxiliary self-supervised task can approximate the changes in
supervised networks, suggesting that these changes are not inherently
label-dependent, though labels significantly accelerate this process. Together,
these results help to elucidate the network changes occurring during this
pivotal initial period of learning.
- Abstract(参考訳): 近年の研究では、ニューラルネットワーク学習の多くの重要な側面が、トレーニングのごく初期のイテレーションやエポックで起こっていることが示されている。
例えば、スパースでトレーニング可能なサブネットワーク(Frankle et al., 2019)、勾配降下は小さなサブスペース(Gur-Ari et al., 2018)に移行し、ネットワークは臨界期(Achille et al., 2019)を経ている。
本稿では,この初期訓練における深層ニューラルネットワークの変化について検討する。
トレーニングの初期段階においてネットワーク状態の広範な測定を行い、Frankle et al. (2019) のフレームワークを利用して、データセットの重み分布とその様々な側面への依存性を定量的に調査する。
このフレームワーク内では、ディープネットワークは、サインを維持しながらランダムな重みで再起動する堅牢なものではなく、数百回の反復の後でも重み分布は非常に非依存である。
この挙動にもかかわらず、ぼやけた入力や補助的な自己教師付きタスクによる事前トレーニングは教師付きネットワークの変化を近似することができ、これらの変更は本質的にラベルに依存しないが、ラベルはこのプロセスを大幅に加速することを示唆している。
これらの結果は、この重要な学習期間に生じるネットワークの変化を解明するのに役立ちます。
関連論文リスト
- Opening the Black Box: predicting the trainability of deep neural networks with reconstruction entropy [0.0]
本稿では,ディープフィードフォワードニューラルネットワークのパラメータ空間におけるトレーニング可能な状態を予測する手法を提案する。
MNISTとCIFAR10の両方のデータセットに対して、トレーニングの1つのエポックが、ディープフィードフォワードネットワークのトレーニング可能性を予測するのに十分であることを示す。
論文 参考訳(メタデータ) (2024-06-13T18:00:05Z) - How connectivity structure shapes rich and lazy learning in neural
circuits [14.236853424595333]
本稿では,初期重みの構造,特にその有効ランクがネットワーク学習体制に与える影響について検討する。
本研究は,学習体制形成における初期重み構造の役割を明らかにするものである。
論文 参考訳(メタデータ) (2023-10-12T17:08:45Z) - Stabilizing RNN Gradients through Pre-training [3.335932527835653]
学習理論は、勾配が深さや時間で指数関数的に成長するのを防ぎ、トレーニングを安定させ改善することを提案する。
我々は、既知の安定性理論を拡張し、データとパラメータの分布について最小限の仮定を必要とするディープ・リカレント・ネットワークの幅広いファミリーを包含する。
本稿では,この問題を緩和するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-23T11:48:35Z) - Scaling and Resizing Symmetry in Feedforward Networks [0.0]
臨界点における物理系によって示されるスケーリング特性は、臨界点におけるランダムな重みを持つトレーニングされていないフィードフォワードネットワークにも存在していることを示す。
我々は、臨界におけるスケーリング対称性から直接受け継がれる追加のデータ縮小対称性を提案する。
論文 参考訳(メタデータ) (2023-06-26T18:55:54Z) - IF2Net: Innately Forgetting-Free Networks for Continual Learning [49.57495829364827]
継続的な学習は、以前に学んだ知識に干渉することなく、新しい概念を漸進的に吸収することができる。
ニューラルネットワークの特性に触発され,本研究は,IF2Net(Innately Forgetting-free Network)の設計方法について検討した。
IF2Netは、1つのネットワークがテスト時にタスクのIDを告げることなく、本質的に無制限のマッピングルールを学習することを可能にする。
論文 参考訳(メタデータ) (2023-06-18T05:26:49Z) - Critical Learning Periods for Multisensory Integration in Deep Networks [112.40005682521638]
ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階において、適切な相関した信号に晒されることに批判的になることを示す。
臨界周期は、訓練されたシステムとその学習された表現の最終性能を決定づける、複雑で不安定な初期過渡的ダイナミクスから生じることを示す。
論文 参考訳(メタデータ) (2022-10-06T23:50:38Z) - Early Transferability of Adversarial Examples in Deep Neural Networks [0.0]
本稿では,これまで知られていなかった新しい現象を記述・解析し,その現象を「Early Transferability」と呼ぶ。
本質的には、訓練のごく初期の段階でも、異なるネットワーク間で敵の摂動が伝達される。
本研究の目的は, この現象を実験的に提示することであり, その特性について, 妥当な説明法を提案することである。
論文 参考訳(メタデータ) (2022-06-09T12:55:43Z) - What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-08T08:58:00Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z) - Semantic Drift Compensation for Class-Incremental Learning [48.749630494026086]
ディープネットワークのクラス増分学習は、分類対象のクラス数を順次増加させる。
本研究では,特徴のセマンティックドリフト(セマンティックドリフト)と呼ばれるドリフトを推定し,その補正を行う新しい手法を提案する。
論文 参考訳(メタデータ) (2020-04-01T13:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。