論文の概要: Early Period of Training Impacts Out-of-Distribution Generalization
- arxiv url: http://arxiv.org/abs/2403.15210v1
- Date: Fri, 22 Mar 2024 13:52:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:19:18.257854
- Title: Early Period of Training Impacts Out-of-Distribution Generalization
- Title(参考訳): 教育の初期段階はアウト・オブ・ディストリビューションの一般化に影響を及ぼす
- Authors: Chen Cecilia Liu, Iryna Gurevych,
- Abstract要約: ニューラルネットワークトレーニングの初期における学習力学とOOD一般化の関係について検討した。
トレーニング中に異なる時間にトレーニング可能なパラメータ数を選択することは、ID結果に極端に影響を及ぼすことを示す。
訓練初期におけるシャープネスの絶対値とフィッシャー情報の痕跡は,OOD一般化の指標にはならない。
- 参考スコア(独自算出の注目度): 56.283944756315066
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Prior research has found that differences in the early period of neural network training significantly impact the performance of in-distribution (ID) tasks. However, neural networks are often sensitive to out-of-distribution (OOD) data, making them less reliable in downstream applications. Yet, the impact of the early training period on OOD generalization remains understudied due to its complexity and lack of effective analytical methodologies. In this work, we investigate the relationship between learning dynamics and OOD generalization during the early period of neural network training. We utilize the trace of Fisher Information and sharpness, with a focus on gradual unfreezing (i.e. progressively unfreezing parameters during training) as the methodology for investigation. Through a series of empirical experiments, we show that 1) selecting the number of trainable parameters at different times during training, i.e. realized by gradual unfreezing -- has a minuscule impact on ID results, but greatly affects the generalization to OOD data; 2) the absolute values of sharpness and trace of Fisher Information at the initial period of training are not indicative for OOD generalization, but the relative values could be; 3) the trace of Fisher Information and sharpness may be used as indicators for the removal of interventions during early period of training for better OOD generalization.
- Abstract(参考訳): これまでの研究では、ニューラルネットワークトレーニングの初期の期間の違いが、分散処理(ID)タスクのパフォーマンスに大きく影響していることがわかった。
しかし、ニューラルネットワークは、しばしばオフ・オブ・ディストリビューション(OOD)データに敏感であり、下流アプリケーションでは信頼性が低い。
しかし、OODの一般化に対する初期の訓練期間の影響は、その複雑さと効果的な分析手法の欠如により、いまだに検討されていない。
本研究では,ニューラルネットワーク学習の初期における学習力学とOOD一般化の関係について検討する。
本研究では, 魚介類情報と鋭さの痕跡を, 段階的無凍化(訓練中の段階的無凍化パラメータ)に着目し, 調査手法として活用する。
一連の経験的な実験を通して
1)訓練中に異なる時間にトレーニング可能なパラメータ数を選択すること、すなわち、段階的凍結により実現されることは、ID結果に極端に影響を及ぼすが、OODデータへの一般化に大きな影響を与える。
2 訓練初期における水産情報の鋭さ及び痕跡の絶対値は、OODの一般化の指標ではなく、相対値である。
3) 魚介類情報と鋭さの痕跡は, 早期訓練における介入の除去とOODの一般化の促進の指標として用いることができる。
関連論文リスト
- Gradient-Regularized Out-of-Distribution Detection [28.542499196417214]
現実のアプリケーションにおけるニューラルネットワークの課題の1つは、これらのモデルが元のトレーニングディストリビューションからデータが送られていないときに犯す過信エラーである。
本稿では,学習中の損失関数の勾配に埋め込まれた情報を活用して,ネットワークが各サンプルに対して所望のOODスコアを学習できるようにする方法を提案する。
また、トレーニング期間中に、より情報性の高いOODサンプルにネットワークを露出させるための、新しいエネルギーベースのサンプリング手法を開発した。
論文 参考訳(メタデータ) (2024-04-18T17:50:23Z) - Mixture Data for Training Cannot Ensure Out-of-distribution Generalization [21.801115344132114]
トレーニングデータのサイズが大きくなると、必ずしもテスト一般化誤差が減少するとは限らない。
本研究では,OODデータを混合学習データの凸内外にあるデータとして定量的に再定義する。
新たなリスクバウンドの証明は、よく訓練されたモデルの有効性が、目に見えないデータに対して保証されることに同意する。
論文 参考訳(メタデータ) (2023-12-25T11:00:38Z) - Can Pre-trained Networks Detect Familiar Out-of-Distribution Data? [37.36999826208225]
PT-OODが事前学習ネットワークのOOD検出性能に及ぼす影響について検討した。
特徴空間におけるPT-OODの低線形分離性はPT-OOD検出性能を著しく低下させることがわかった。
本稿では,大規模事前学習モデルに対する一意な解を提案する。
論文 参考訳(メタデータ) (2023-10-02T02:01:00Z) - LINe: Out-of-Distribution Detection by Leveraging Important Neurons [15.797257361788812]
本稿では,分布内データとOODデータ間のモデル出力の差を解析するための新しい側面を紹介する。
本稿では,分布検出のポストホックアウトのための新しい手法であるLINe( Leveraging Important Neurons)を提案する。
論文 参考訳(メタデータ) (2023-03-24T13:49:05Z) - Pseudo-OOD training for robust language models [78.15712542481859]
OOD検出は、あらゆる産業規模のアプリケーションに対する信頼性の高い機械学習モデルの鍵となるコンポーネントである。
In-distribution(IND)データを用いて擬似OODサンプルを生成するPOORE-POORE-POSthoc pseudo-Ood Regularizationを提案する。
我々は3つの現実世界の対話システムに関する枠組みを広く評価し、OOD検出における新たな最先端技術を実現した。
論文 参考訳(メタデータ) (2022-10-17T14:32:02Z) - Do Deep Neural Networks Always Perform Better When Eating More Data? [82.6459747000664]
Identically Independent Distribution(IID)とOut of Distribution(OOD)による実験を設計する。
IID条件下では、情報の量は各サンプルの効果度、サンプルの寄与度、クラス間の差がクラス情報の量を決定する。
OOD条件下では、試料のクロスドメイン度が寄与を決定づけ、無関係元素によるバイアス適合はクロスドメインの重要な要素である。
論文 参考訳(メタデータ) (2022-05-30T15:40:33Z) - On the Impact of Spurious Correlation for Out-of-distribution Detection [14.186776881154127]
我々は、不変性と環境特性の両方を考慮して、データシフトをモデル化し、新しい形式化を提案する。
その結果, トレーニングセットにおいて, 突発的特徴とラベルの相関が大きくなると, 検出性能が著しく悪化することが示唆された。
論文 参考訳(メタデータ) (2021-09-12T23:58:17Z) - Improved OOD Generalization via Adversarial Training and Pre-training [49.08683910076778]
本稿では,入力摂動に頑健なモデルがOODデータによく一般化されることを理論的に示す。
従来, 対人訓練が入力難聴の改善に有効であったことが示唆され, 対人訓練モデルがOODデータに過剰なリスクを集中していることが示唆された。
論文 参考訳(メタデータ) (2021-05-24T08:06:35Z) - Catastrophic Fisher Explosion: Early Phase Fisher Matrix Impacts
Generalization [111.57403811375484]
学習開始当初から,勾配降下がフィッシャー情報マトリックスの痕跡を暗黙的にペナルティ化することを示す。
暗黙的あるいは明示的な正規化がない場合、FIMの痕跡は訓練の早い段階で大きな値に増加する可能性があることを強調する。
論文 参考訳(メタデータ) (2020-12-28T11:17:46Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。