論文の概要: Early Period of Training Impacts Out-of-Distribution Generalization
- arxiv url: http://arxiv.org/abs/2403.15210v1
- Date: Fri, 22 Mar 2024 13:52:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:19:18.257854
- Title: Early Period of Training Impacts Out-of-Distribution Generalization
- Title(参考訳): 教育の初期段階はアウト・オブ・ディストリビューションの一般化に影響を及ぼす
- Authors: Chen Cecilia Liu, Iryna Gurevych,
- Abstract要約: ニューラルネットワークトレーニングの初期における学習力学とOOD一般化の関係について検討した。
トレーニング中に異なる時間にトレーニング可能なパラメータ数を選択することは、ID結果に極端に影響を及ぼすことを示す。
訓練初期におけるシャープネスの絶対値とフィッシャー情報の痕跡は,OOD一般化の指標にはならない。
- 参考スコア(独自算出の注目度): 56.283944756315066
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Prior research has found that differences in the early period of neural network training significantly impact the performance of in-distribution (ID) tasks. However, neural networks are often sensitive to out-of-distribution (OOD) data, making them less reliable in downstream applications. Yet, the impact of the early training period on OOD generalization remains understudied due to its complexity and lack of effective analytical methodologies. In this work, we investigate the relationship between learning dynamics and OOD generalization during the early period of neural network training. We utilize the trace of Fisher Information and sharpness, with a focus on gradual unfreezing (i.e. progressively unfreezing parameters during training) as the methodology for investigation. Through a series of empirical experiments, we show that 1) selecting the number of trainable parameters at different times during training, i.e. realized by gradual unfreezing -- has a minuscule impact on ID results, but greatly affects the generalization to OOD data; 2) the absolute values of sharpness and trace of Fisher Information at the initial period of training are not indicative for OOD generalization, but the relative values could be; 3) the trace of Fisher Information and sharpness may be used as indicators for the removal of interventions during early period of training for better OOD generalization.
- Abstract(参考訳): これまでの研究では、ニューラルネットワークトレーニングの初期の期間の違いが、分散処理(ID)タスクのパフォーマンスに大きく影響していることがわかった。
しかし、ニューラルネットワークは、しばしばオフ・オブ・ディストリビューション(OOD)データに敏感であり、下流アプリケーションでは信頼性が低い。
しかし、OODの一般化に対する初期の訓練期間の影響は、その複雑さと効果的な分析手法の欠如により、いまだに検討されていない。
本研究では,ニューラルネットワーク学習の初期における学習力学とOOD一般化の関係について検討する。
本研究では, 魚介類情報と鋭さの痕跡を, 段階的無凍化(訓練中の段階的無凍化パラメータ)に着目し, 調査手法として活用する。
一連の経験的な実験を通して
1)訓練中に異なる時間にトレーニング可能なパラメータ数を選択すること、すなわち、段階的凍結により実現されることは、ID結果に極端に影響を及ぼすが、OODデータへの一般化に大きな影響を与える。
2 訓練初期における水産情報の鋭さ及び痕跡の絶対値は、OODの一般化の指標ではなく、相対値である。
3) 魚介類情報と鋭さの痕跡は, 早期訓練における介入の除去とOODの一般化の促進の指標として用いることができる。
関連論文リスト
- Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Dissecting Deep RL with High Update Ratios: Combatting Value Divergence [21.282292112642747]
ネットワークパラメータをリセットすることなく、深層強化学習アルゴリズムが学習能力を維持できることを示す。
我々は,大規模な更新率での学習を可能にする,単純な単球正規化を採用している。
論文 参考訳(メタデータ) (2024-03-09T19:56:40Z) - Understanding the Generalization Benefits of Late Learning Rate Decay [14.471831651042367]
ニューラルネットワークにおけるトレーニングとテスト損失の関係を示す。
本稿では、実際のニューラルネットワークで観測された損失景観を反映した非線形モデルを提案する。
学習率の高い拡張フェーズが、トレーニング損失の最小限の標準解に向けて、我々のモデルを導いてくれることを実証する。
論文 参考訳(メタデータ) (2024-01-21T21:11:09Z) - Outliers with Opposing Signals Have an Outsized Effect on Neural Network
Optimization [36.72245290832128]
自然データにおける深度とヘビーテール構造との相互作用から生じるニューラルネットワーク最適化の新たな現象を同定する。
特に、プログレッシブ・シャープニングと安定性の端について、概念的に新しい原因を示唆している。
強い反対信号を持つトレーニングデータにおいて,2組のオフレーヤ群が有意な影響を示した。
論文 参考訳(メタデータ) (2023-11-07T17:43:50Z) - Critical Learning Periods for Multisensory Integration in Deep Networks [112.40005682521638]
ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階において、適切な相関した信号に晒されることに批判的になることを示す。
臨界周期は、訓練されたシステムとその学習された表現の最終性能を決定づける、複雑で不安定な初期過渡的ダイナミクスから生じることを示す。
論文 参考訳(メタデータ) (2022-10-06T23:50:38Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Learning Curves for Sequential Training of Neural Networks:
Self-Knowledge Transfer and Forgetting [9.734033555407406]
我々は,タスクからタスクまでの目標関数を継続的に学習するニューラルネットワークをニューラルネットワークとして検討する。
モデルが複数のタスクで同じターゲット関数を学習する連続学習の変種について検討する。
同じターゲットであっても、トレーニングされたモデルは、各タスクのサンプルサイズに応じて、何らかの転送と忘れを見せる。
論文 参考訳(メタデータ) (2021-12-03T00:25:01Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Understanding the Role of Training Regimes in Continual Learning [51.32945003239048]
破滅的な忘れは、ニューラルネットワークのトレーニングに影響を与え、複数のタスクを逐次学習する能力を制限する。
本研究では,タスクの局所的なミニマを拡大するトレーニング体制の形成に及ぼすドロップアウト,学習速度の低下,バッチサイズの影響について検討した。
論文 参考訳(メタデータ) (2020-06-12T06:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。