論文の概要: How Spurious Features Are Memorized: Precise Analysis for Random and NTK Features
- arxiv url: http://arxiv.org/abs/2305.12100v3
- Date: Fri, 17 May 2024 14:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 20:43:15.544913
- Title: How Spurious Features Are Memorized: Precise Analysis for Random and NTK Features
- Title(参考訳): Spuriousの機能はどのように記憶されるか: ランダムとNTKの正確な分析
- Authors: Simone Bombari, Marco Mondelli,
- Abstract要約: 学習課題とは無関係な突発的な特徴について考察する。
それらがどのように2つの異なる用語で記憶されるのかを正確に評価する。
一般化能力の増大に伴い,突発的特徴の記憶が弱まることを示す。
- 参考スコア(独自算出の注目度): 19.261178173399784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models are known to overfit and memorize spurious features in the training dataset. While numerous empirical studies have aimed at understanding this phenomenon, a rigorous theoretical framework to quantify it is still missing. In this paper, we consider spurious features that are uncorrelated with the learning task, and we provide a precise characterization of how they are memorized via two separate terms: (i) the stability of the model with respect to individual training samples, and (ii) the feature alignment between the spurious feature and the full sample. While the first term is well established in learning theory and it is connected to the generalization error in classical work, the second one is, to the best of our knowledge, novel. Our key technical result gives a precise characterization of the feature alignment for the two prototypical settings of random features (RF) and neural tangent kernel (NTK) regression. We prove that the memorization of spurious features weakens as the generalization capability increases and, through the analysis of the feature alignment, we unveil the role of the model and of its activation function. Numerical experiments show the predictive power of our theory on standard datasets (MNIST, CIFAR-10).
- Abstract(参考訳): ディープラーニングモデルは、トレーニングデータセットの急激な機能に過度に適合し、記憶することが知られている。
多くの実証的研究はこの現象を理解することを目的としているが、それを定量化するための厳密な理論的な枠組みはいまだに欠けている。
本稿では,学習課題とは無関係な突発的特徴を考察し,それらがどのように2つの用語で記憶されているか,正確に評価する。
一 個別の訓練サンプルに関するモデルの安定性
(二)突発的特徴と全サンプルとの間の特徴アライメント
第1項は学習理論においてよく確立されており、古典的作品における一般化誤差と結びついているが、第2項は、我々の知る限りでは、小説である。
我々の重要な技術的成果は、ランダムな特徴(RF)とニューラル・タンジェント・カーネル(NTK)の回帰の2つの原型的な設定に対する特徴アライメントを正確に評価することである。
一般化能力の増大に伴い,突発的特徴の記憶が弱まることを証明し,特徴アライメントの分析を通じて,モデルの役割とその活性化関数を明らかにする。
数値実験により、我々の理論の標準データセット(MNIST, CIFAR-10)における予測力を示す。
関連論文リスト
- A Random Matrix Theory Perspective on the Spectrum of Learned Features and Asymptotic Generalization Capabilities [30.737171081270322]
完全に接続された2層ニューラルネットワークは、単一だが攻撃的な勾配降下ステップの後、ターゲット関数にどのように適応するかを検討する。
これは、2層ニューラルネットワークの一般化における特徴学習の影響を、ランダムな特徴や遅延トレーニング体制を超えて、はっきりと説明してくれる。
論文 参考訳(メタデータ) (2024-10-24T17:24:34Z) - Complexity Matters: Dynamics of Feature Learning in the Presence of Spurious Correlations [13.119576365743624]
突発的な相関の下で特徴学習のダイナミクスを考察する。
以上の結果から, 最終層の再トレーニングの成功を正当化し, 急激な相関を除去できることが示唆された。
また、突発的特徴の早期学習を利用する一般的なデバイアスアルゴリズムの限界も特定する。
論文 参考訳(メタデータ) (2024-03-05T23:54:00Z) - On the Foundations of Shortcut Learning [20.53986437152018]
予測と可用性が形状モデルの特徴的利用とどのように相互作用するかを考察する。
線形モデルは比較的偏りがないが、ReLUやTanhの単位を持つ単一の隠蔽層を導入するとバイアスが生じる。
論文 参考訳(メタデータ) (2023-10-24T22:54:05Z) - On the Joint Interaction of Models, Data, and Features [82.60073661644435]
本稿では,データとモデル間の相互作用を実験的に解析する新しいツールであるインタラクションテンソルを紹介する。
これらの観測に基づいて,特徴学習のための概念的枠組みを提案する。
この枠組みの下では、一つの仮説に対する期待された精度と一対の仮説に対する合意はどちらも閉形式で導出することができる。
論文 参考訳(メタデータ) (2023-06-07T21:35:26Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - More data or more parameters? Investigating the effect of data structure
on generalization [17.249712222764085]
データの特性は、トレーニング例の数とトレーニングパラメータの数の関数としてテストエラーに影響を与えます。
ラベル内のノイズや入力データの強い異方性がテストエラーと同じような役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-03-09T16:08:41Z) - Don't Just Blame Over-parametrization for Over-confidence: Theoretical
Analysis of Calibration in Binary Classification [58.03725169462616]
理論上は、過剰パラメトリゼーションは過剰信頼の唯一の理由ではない。
我々は、ロジスティック回帰は本質的に信頼過剰であり、実現可能で、非パラメータな設定であることを示す。
おそらく驚くことに、過剰な信頼が常にそうであるとは限らないことも示します。
論文 参考訳(メタデータ) (2021-02-15T21:38:09Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory [110.99247009159726]
時間差とQ-ラーニングは、ニューラルネットワークのような表現力のある非線形関数近似器によって強化される深層強化学習において重要な役割を担っている。
特に時間差学習は、関数近似器が特徴表現において線形であるときに収束する。
論文 参考訳(メタデータ) (2020-06-08T17:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。