論文の概要: Freeze then Train: Towards Provable Representation Learning under
Spurious Correlations and Feature Noise
- arxiv url: http://arxiv.org/abs/2210.11075v2
- Date: Tue, 11 Apr 2023 09:05:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 18:47:38.790386
- Title: Freeze then Train: Towards Provable Representation Learning under
Spurious Correlations and Feature Noise
- Title(参考訳): 凍結学習 : 純粋相関と特徴雑音下での予測表現学習を目指して
- Authors: Haotian Ye, James Zou, Linjun Zhang
- Abstract要約: コア機能は、関連する非実現可能なノイズが、突発的な特徴よりも小さい場合にのみ、十分に学習されることが分かりました。
提案アルゴリズムは,まず特定の有能な特徴を凍結し,次に経験的リスク最小化を用いて他の特徴を訓練する。
- 参考スコア(独自算出の注目度): 16.38606757545815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The existence of spurious correlations such as image backgrounds in the
training environment can make empirical risk minimization (ERM) perform badly
in the test environment. To address this problem, Kirichenko et al. (2022)
empirically found that the core features that are related to the outcome can
still be learned well even with the presence of spurious correlations. This
opens a promising strategy to first train a feature learner rather than a
classifier, and then perform linear probing (last layer retraining) in the test
environment. However, a theoretical understanding of when and why this approach
works is lacking. In this paper, we find that core features are only learned
well when their associated non-realizable noise is smaller than that of
spurious features, which is not necessarily true in practice. We provide both
theories and experiments to support this finding and to illustrate the
importance of non-realizable noise. Moreover, we propose an algorithm called
Freeze then Train (FTT), that first freezes certain salient features and then
trains the rest of the features using ERM. We theoretically show that FTT
preserves features that are more beneficial to test time probing. Across two
commonly used spurious correlation datasets, FTT outperforms ERM, IRM, JTT and
CVaR-DRO, with substantial improvement in accuracy (by 4.5%) when the feature
noise is large. FTT also performs better on general distribution shift
benchmarks.
- Abstract(参考訳): 訓練環境における画像背景などの素早い相関関係の存在は、試験環境において経験的リスク最小化(ERM)を著しく向上させる。
この問題に対処するため、kirinchenkoら(2022年)は、スプリアス相関が存在する場合でも、結果に関連するコアな特徴を十分に学習できることを実証的に発見した。
これにより、最初に分類器ではなく機能学習者を訓練し、テスト環境で線形プローブ(最終層再トレーニング)を実行する、有望な戦略が開かれる。
しかし、いつ、なぜこのアプローチが機能するのかを理論的に理解できない。
本稿では,これらの非実現可能なノイズがスプリアスな特徴よりも小さい場合のみ,コア機能は十分に学習できることを見出した。
この発見を裏付ける理論と実験の両方を提供し、非実現可能なノイズの重要性を説明する。
さらに,まず特定の有能な特徴を凍結し,残りの特徴をEMMを用いて訓練する,Freeze then Train (FTT) というアルゴリズムを提案する。
理論的には、FTTはテスト時間探索に有利な特徴を保存している。
一般的に使われている2つの相関データセットの中で、FTTはEMM, IRM, JTT, CVaR-DROより優れており、特徴雑音が大きい場合には精度(4.5%)が大幅に向上する。
FTTは、一般的な分散シフトベンチマークでも性能が向上する。
関連論文リスト
- Generative Pre-Trained Transformer for Symbolic Regression Base In-Context Reinforcement Learning [12.660401635672967]
観測データから数学的公式を見つけることは、科学研究の大きな要求である。
フォーミュラGPTは4つのベースラインと比較して適合性において最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-04-09T14:08:47Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory [12.689249854199982]
RF劣化試験のリスクは特徴数とサンプル数の両方で単調に低下することを示した。
次に、パワーロー固有構造を特徴とするタスクの大規模なクラスにおいて、ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられていることを示す。
論文 参考訳(メタデータ) (2023-11-24T18:27:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Identifying Spurious Biases Early in Training through the Lens of
Simplicity Bias [25.559684790787866]
訓練の初期にモデルの出力に基づいて,スプリアス機能のある例が確実に分離可能であることを示す。
SPAREは,訓練の初期段階において,素早い相関関係を同定し,その効果を緩和するために重要サンプリングを利用する。
論文 参考訳(メタデータ) (2023-05-30T05:51:36Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - TCT: Convexifying Federated Learning using Bootstrapped Neural Tangent
Kernels [141.29156234353133]
最先端の凸学習手法は、クライアントが異なるデータ分布を持つ場合、集中型よりもはるかにパフォーマンスが劣る。
我々は、この格差は、非NISTityが提示した課題に大きく起因していることを示す。
本稿では,Train-Convexify Neural Network (TCT) 手法を提案する。
論文 参考訳(メタデータ) (2022-07-13T16:58:22Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。