論文の概要: Freeze then Train: Towards Provable Representation Learning under
Spurious Correlations and Feature Noise
- arxiv url: http://arxiv.org/abs/2210.11075v1
- Date: Thu, 20 Oct 2022 07:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 15:24:55.797760
- Title: Freeze then Train: Towards Provable Representation Learning under
Spurious Correlations and Feature Noise
- Title(参考訳): 凍結学習 : 純粋相関と特徴雑音下での予測表現学習を目指して
- Authors: Haotian Ye, James Zou, Linjun Zhang
- Abstract要約: コア機能は、突発的な機能よりもノイズが少ない場合にのみ、十分に学習されていることが分かりました。
提案アルゴリズムは,まず特定の有能な特徴を凍結し,次に経験的リスク最小化を用いて他の特徴を訓練する。
- 参考スコア(独自算出の注目度): 16.38606757545815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The existence of spurious correlations such as image backgrounds in the
training environment can make empirical risk minimization (ERM) perform badly
in the test environment. To address this problem, Kirichenko et al. (2022)
empirically found that the core features that are causally related to the
outcome can still be learned well even with the presence of spurious
correlations. This opens a promising strategy to first train a feature learner
rather than a classifier, and then perform linear probing (last layer
retraining) in the test environment. However, a theoretical understanding of
when and why this approach works is lacking. In this paper, we find that core
features are only learned well when they are less noisy than spurious features,
which is not necessarily true in practice. We provide both theories and
experiments to support this finding and to illustrate the importance of feature
noise. Moreover, we propose an algorithm called Freeze then Train (FTT), that
first freezes certain salient features and then trains the rest of the features
using ERM. We theoretically show that FTT preserves features that are more
beneficial to test time probing. Across two commonly used real-world
benchmarks, FTT outperforms ERM, JTT and CVaR-DRO, with especially substantial
improvement in accuracy (by 4.8%) when the feature noise is large.
- Abstract(参考訳): 訓練環境における画像背景などの素早い相関関係の存在は、試験環境において経験的リスク最小化(ERM)を著しく向上させる。
この問題に対処するため、Kirichenkoら (2022) は、結果に因果関係のある中核的な特徴は、たとえ素早い相関が存在するとしても、十分に学習可能であることを実証的に見出した。
これにより、最初に分類器ではなく機能学習者を訓練し、テスト環境で線形プローブ(最終層再トレーニング)を実行する、有望な戦略が開かれる。
しかし、いつ、なぜこのアプローチが機能するのかを理論的に理解できない。
本稿では,コア機能はスプリアス機能よりもノイズが少ない場合にのみ十分に学習できることを見出し,実際には必ずしもそうではない。
我々はこの発見を支援し、特徴雑音の重要性を説明するため、理論と実験の両方を提供する。
さらに,まず特定の有能な特徴を凍結し,残りの特徴をEMMを用いて訓練する,Freeze then Train (FTT) というアルゴリズムを提案する。
理論的には、FTTはテスト時間探索に有利な特徴を保存している。
2つの一般的な実世界のベンチマークで、FTTはEMM、JTT、CVaR-DROより優れており、特にノイズが大きい場合には精度が4.8%向上している。
関連論文リスト
- Generative Pre-Trained Transformer for Symbolic Regression Base In-Context Reinforcement Learning [12.660401635672967]
観測データから数学的公式を見つけることは、科学研究の大きな要求である。
フォーミュラGPTは4つのベースラインと比較して適合性において最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-04-09T14:08:47Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory [12.689249854199982]
RF劣化試験のリスクは特徴数とサンプル数の両方で単調に低下することを示した。
次に、パワーロー固有構造を特徴とするタスクの大規模なクラスにおいて、ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられていることを示す。
論文 参考訳(メタデータ) (2023-11-24T18:27:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Identifying Spurious Biases Early in Training through the Lens of
Simplicity Bias [25.559684790787866]
訓練の初期にモデルの出力に基づいて,スプリアス機能のある例が確実に分離可能であることを示す。
SPAREは,訓練の初期段階において,素早い相関関係を同定し,その効果を緩和するために重要サンプリングを利用する。
論文 参考訳(メタデータ) (2023-05-30T05:51:36Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - TCT: Convexifying Federated Learning using Bootstrapped Neural Tangent
Kernels [141.29156234353133]
最先端の凸学習手法は、クライアントが異なるデータ分布を持つ場合、集中型よりもはるかにパフォーマンスが劣る。
我々は、この格差は、非NISTityが提示した課題に大きく起因していることを示す。
本稿では,Train-Convexify Neural Network (TCT) 手法を提案する。
論文 参考訳(メタデータ) (2022-07-13T16:58:22Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。