論文の概要: Early Period of Training Impacts Adaptation for Out-of-Distribution Generalization: An Empirical Study
- arxiv url: http://arxiv.org/abs/2403.15210v2
- Date: Sun, 05 Jan 2025 18:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:02:44.322416
- Title: Early Period of Training Impacts Adaptation for Out-of-Distribution Generalization: An Empirical Study
- Title(参考訳): アウト・オブ・ディストリビューション・ジェネリゼーションに適応する訓練の初期段階--実証的研究
- Authors: Chen Cecilia Liu, Iryna Gurevych,
- Abstract要約: 本稿では,学習力学,分布外一般化,ニューラルネットワークトレーニングの初期段階との関係について検討する。
トレーニングの初期においてトレーニング可能なパラメータの数を変更することで,OODの結果が大幅に改善できることが示唆された。
画像データとテキストデータの両方で実験したところ、訓練の初期段階は、IDとOODのパフォーマンスを最小限の複雑さで改善できる一般的な現象であることがわかった。
- 参考スコア(独自算出の注目度): 56.283944756315066
- License:
- Abstract: Prior research shows that differences in the early period of neural network training significantly impact the performance of in-distribution (ID) data of tasks. Yet, the implications of early learning dynamics on out-of-distribution (OOD) generalization remain poorly understood, primarily due to the complexities and limitations of existing analytical techniques. In this work, we investigate the relationship between learning dynamics, OOD generalization under covariate shift and the early period of neural network training. We utilize the trace of Fisher Information and sharpness, focusing on gradual unfreezing (i.e., progressively unfreezing parameters during training) as our methodology for investigation. Through a series of empirical experiments, we show that 1) changing the number of trainable parameters during the early period of training via gradual unfreezing can significantly improve OOD results; 2) the trace of Fisher Information and sharpness can be used as indicators for the removal of gradual unfreezing during the early period of training for better OOD generalization. Our experiments on both image and text data show that the early period of training is a general phenomenon that can provide Pareto improvements in ID and OOD performance with minimal complexity. Our work represents a first step towards understanding how early learning dynamics affect neural network OOD generalization under covariate shift and suggests a new avenue to improve and study this problem.
- Abstract(参考訳): 以前の研究では、ニューラルネットワークトレーニングの初期段階の違いがタスクの分散(ID)データのパフォーマンスに大きく影響していることが示されている。
しかし、早期学習のダイナミクスがアウト・オブ・ディストリビューション(OOD)の一般化に与える影響は、主に既存の分析技術の複雑さと限界のために、よく理解されていない。
本研究では,共変量シフトによる学習力学,OOD一般化,ニューラルネットワークトレーニングの初期段階との関係について検討する。
我々は,本研究の方法論として,段階的無凍化(訓練中の段階的無凍化パラメータ)に着目し,漁獲情報と鋭さの痕跡を利用する。
一連の経験的な実験を通して
1) 段階的凍結による訓練の初期段階におけるトレーニング可能なパラメータの数の変更は,OODの結果を大幅に改善させることができる。
2)魚介類情報と鋭さの痕跡は,OODの一般化向上のための訓練初期の段階的凍結防止の指標として利用することができる。
画像データとテキストデータの両方で実験したところ、トレーニングの初期段階は、ParetoのIDとOODのパフォーマンスを最小限の複雑さで改善できる一般的な現象であることがわかった。
我々の研究は、早期学習のダイナミクスが共変量シフトの下でのニューラルネットワークのOOD一般化にどのように影響するかを理解するための第一歩であり、この問題を改善し研究するための新たな道のりを示唆している。
関連論文リスト
- Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Dissecting Deep RL with High Update Ratios: Combatting Value Divergence [21.282292112642747]
ネットワークパラメータをリセットすることなく、深層強化学習アルゴリズムが学習能力を維持できることを示す。
我々は,大規模な更新率での学習を可能にする,単純な単球正規化を採用している。
論文 参考訳(メタデータ) (2024-03-09T19:56:40Z) - Understanding the Generalization Benefits of Late Learning Rate Decay [14.471831651042367]
ニューラルネットワークにおけるトレーニングとテスト損失の関係を示す。
本稿では、実際のニューラルネットワークで観測された損失景観を反映した非線形モデルを提案する。
学習率の高い拡張フェーズが、トレーニング損失の最小限の標準解に向けて、我々のモデルを導いてくれることを実証する。
論文 参考訳(メタデータ) (2024-01-21T21:11:09Z) - Outliers with Opposing Signals Have an Outsized Effect on Neural Network
Optimization [36.72245290832128]
自然データにおける深度とヘビーテール構造との相互作用から生じるニューラルネットワーク最適化の新たな現象を同定する。
特に、プログレッシブ・シャープニングと安定性の端について、概念的に新しい原因を示唆している。
強い反対信号を持つトレーニングデータにおいて,2組のオフレーヤ群が有意な影響を示した。
論文 参考訳(メタデータ) (2023-11-07T17:43:50Z) - Critical Learning Periods for Multisensory Integration in Deep Networks [112.40005682521638]
ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階において、適切な相関した信号に晒されることに批判的になることを示す。
臨界周期は、訓練されたシステムとその学習された表現の最終性能を決定づける、複雑で不安定な初期過渡的ダイナミクスから生じることを示す。
論文 参考訳(メタデータ) (2022-10-06T23:50:38Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Learning Curves for Sequential Training of Neural Networks:
Self-Knowledge Transfer and Forgetting [9.734033555407406]
我々は,タスクからタスクまでの目標関数を継続的に学習するニューラルネットワークをニューラルネットワークとして検討する。
モデルが複数のタスクで同じターゲット関数を学習する連続学習の変種について検討する。
同じターゲットであっても、トレーニングされたモデルは、各タスクのサンプルサイズに応じて、何らかの転送と忘れを見せる。
論文 参考訳(メタデータ) (2021-12-03T00:25:01Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Understanding the Role of Training Regimes in Continual Learning [51.32945003239048]
破滅的な忘れは、ニューラルネットワークのトレーニングに影響を与え、複数のタスクを逐次学習する能力を制限する。
本研究では,タスクの局所的なミニマを拡大するトレーニング体制の形成に及ぼすドロップアウト,学習速度の低下,バッチサイズの影響について検討した。
論文 参考訳(メタデータ) (2020-06-12T06:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。