論文の概要: When Does Re-initialization Work?
- arxiv url: http://arxiv.org/abs/2206.10011v1
- Date: Mon, 20 Jun 2022 21:23:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 08:40:09.254371
- Title: When Does Re-initialization Work?
- Title(参考訳): 再初期化はいつ機能するのか?
- Authors: Sheheryar Zaidi, Tudor Berariu, Hyunjik Kim, J\"org Bornschein,
Claudia Clopath, Yee Whye Teh, Razvan Pascanu
- Abstract要約: 再初期化は、最近の研究における一般化を改善するために観察されている。
ディープラーニングの実践では広く採用されておらず、最先端のトレーニングプロトコルでもよく使用されている。
このことは、再初期化がいつ動作するのか、また、正規化技術と一緒に使うべきかという疑問を提起する。
- 参考スコア(独自算出の注目度): 50.70297319284022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Re-initializing a neural network during training has been observed to improve
generalization in recent works. Yet it is neither widely adopted in deep
learning practice nor is it often used in state-of-the-art training protocols.
This raises the question of when re-initialization works, and whether it should
be used together with regularization techniques such as data augmentation,
weight decay and learning rate schedules. In this work, we conduct an extensive
empirical comparison of standard training with a selection of re-initialization
methods to answer this question, training over 15,000 models on a variety of
image classification benchmarks. We first establish that such methods are
consistently beneficial for generalization in the absence of any other
regularization. However, when deployed alongside other carefully tuned
regularization techniques, re-initialization methods offer little to no added
benefit for generalization, although optimal generalization performance becomes
less sensitive to the choice of learning rate and weight decay hyperparameters.
To investigate the impact of re-initialization methods on noisy data, we also
consider learning under label noise. Surprisingly, in this case,
re-initialization significantly improves upon standard training, even in the
presence of other carefully tuned regularization techniques.
- Abstract(参考訳): トレーニング中のニューラルネットワークの再初期化は、最近の研究の一般化を改善するために観察されている。
しかし、ディープラーニングの実践では広く採用されておらず、最先端のトレーニングプロトコルでよく使われている。
これは再初期化がいつ機能するか、データ拡張、重量減少、学習率のスケジュールといった正規化技術と一緒に使うべきかという疑問を提起する。
本研究では,様々な画像分類ベンチマークを用いて15,000モデル以上をトレーニングし,標準訓練と再初期化手法の選定を広範囲に比較した。
まず,そのような手法は,他の正規化が存在しない場合にも,常に一般化に有益であることを示す。
しかし、注意して調整した他の正規化手法と併用すると、再初期化手法は一般化の利点をほとんど与えないが、最適な一般化性能は学習速度の選択や重みの減衰ハイパーパラメータに対する感受性が低下する。
雑音データに対する再初期化手法の影響を調べるため,ラベル雑音下での学習についても検討する。
驚くべきことに、このケースでは、他の注意深く調整された正規化技術が存在する場合でも、再初期化は標準トレーニングにおいて著しく改善される。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Understanding Overfitting in Adversarial Training via Kernel Regression [16.49123079820378]
ニューラルネットワークの性能を高めるために、敵対的なトレーニングとノイズによるデータ拡張が広く採用されている。
本稿では,正規化回帰の文脈において,雑音を伴う逆行訓練とデータ拡張について検討する。
論文 参考訳(メタデータ) (2023-04-13T08:06:25Z) - Regularization-based Pruning of Irrelevant Weights in Deep Neural
Architectures [0.0]
本稿では,無関係な重みを識別し,そのノルムを選択的に縮小する正規化手法を用いて,スパース神経トポロジを学習する手法を提案する。
提案手法を画像分類と自然言語生成のタスクで検証し,スパーシティとメトリクスの両面から比較結果を得た。
論文 参考訳(メタデータ) (2022-04-11T09:44:16Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Continual Deep Learning by Functional Regularisation of Memorable Past [95.97578574330934]
知的システムにとって、新しいスキルを継続的に学習することは重要だが、標準的なディープラーニング手法は、過去の破滅的な忘れ物に悩まされている。
本稿では, 過去の記憶に残るいくつかの例を, 忘れることを避けるために活用する機能正規化手法を提案する。
提案手法は,標準ベンチマーク上での最先端性能を実現し,正規化とメモリベースの手法を自然に組み合わせた生涯学習の新たな方向性を開拓する。
論文 参考訳(メタデータ) (2020-04-29T10:47:54Z) - AL2: Progressive Activation Loss for Learning General Representations in
Classification Neural Networks [12.14537824884951]
本稿では,トレーニング中のアクティベーションの規模を段階的に罰する新たな正規化手法を提案する。
本手法が一般化に与える影響をラベルランダム化試験と累積アブレーションを用いて解析した。
論文 参考訳(メタデータ) (2020-03-07T18:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。