論文の概要: Beyond Distribution Shift: Spurious Features Through the Lens of
Training Dynamics
- arxiv url: http://arxiv.org/abs/2302.09344v2
- Date: Sat, 14 Oct 2023 15:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 23:24:57.582772
- Title: Beyond Distribution Shift: Spurious Features Through the Lens of
Training Dynamics
- Title(参考訳): 分散シフトを超えて - トレーニングダイナミクスのレンズを通したスプリアスな機能
- Authors: Nihal Murali, Aahlad Puli, Ke Yu, Rajesh Ranganath, Kayhan
Batmanghelich
- Abstract要約: ディープニューラルネットワーク(DNN)は、トレーニング中にラベルと相関するが学習の問題とは無関係な、刺激的な特徴を学習する傾向にある。
本研究の目的は、トレーニング過程において、内部ニューロンの学習ダイナミクスのレンズを通して、刺激的な特徴の効果をよりよく理解することである。
- 参考スコア(独自算出の注目度): 31.16516225185384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Neural Networks (DNNs) are prone to learning spurious features that
correlate with the label during training but are irrelevant to the learning
problem. This hurts model generalization and poses problems when deploying them
in safety-critical applications. This paper aims to better understand the
effects of spurious features through the lens of the learning dynamics of the
internal neurons during the training process. We make the following
observations: (1) While previous works highlight the harmful effects of
spurious features on the generalization ability of DNNs, we emphasize that not
all spurious features are harmful. Spurious features can be "benign" or
"harmful" depending on whether they are "harder" or "easier" to learn than the
core features for a given model. This definition is model and
dataset-dependent. (2) We build upon this premise and use instance difficulty
methods (like Prediction Depth (Baldock et al., 2021)) to quantify "easiness"
for a given model and to identify this behavior during the training phase. (3)
We empirically show that the harmful spurious features can be detected by
observing the learning dynamics of the DNN's early layers. In other words, easy
features learned by the initial layers of a DNN early during the training can
(potentially) hurt model generalization. We verify our claims on medical and
vision datasets, both simulated and real, and justify the empirical success of
our hypothesis by showing the theoretical connections between Prediction Depth
and information-theoretic concepts like V-usable information (Ethayarajh et
al., 2021). Lastly, our experiments show that monitoring only accuracy during
training (as is common in machine learning pipelines) is insufficient to detect
spurious features. We, therefore, highlight the need for monitoring early
training dynamics using suitable instance difficulty metrics.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、トレーニング中にラベルと相関するが学習の問題とは無関係な、刺激的な特徴を学ぶ傾向がある。
これはモデルの一般化を損ね、安全クリティカルなアプリケーションにデプロイするときに問題を引き起こす。
本研究の目的は、学習過程における内ニューロンの学習ダイナミクスのレンズを通して、散発的特徴の効果をよりよく理解することである。
1)DNNの一般化能力に対する突発的特徴の有害な影響を強調しながら,すべての突発的特徴が有害であるとは限らないことを強調した。
厳格な機能は、与えられたモデルのコア機能よりも"より硬い"か"より学習しやすい"かによって、"良心"あるいは"有害"になる可能性がある。
この定義はモデルとデータセットに依存します。
2)この前提に基づいてインスタンス難易度法(baldock et al., 2021)を用いて,与えられたモデルに対する「不安度」を定量化し,その動作を訓練段階で識別する。
(3)DNNの初期階層の学習動態を観察することにより有害な突発的特徴を検出することを実証的に示す。
言い換えれば、トレーニングの初期からDNNの初期レイヤで学んだ簡単な機能は、(潜在的に)モデルの一般化を損なう可能性がある。
医用データセットと視覚データセットの双方において,予測深度と情報理論的な概念 (ethayarajh et al., 2021) との理論的関係を示し,仮説の実証的成功を正当化する。
最後に、我々の実験は、トレーニング中のみの正確さ(機械学習パイプラインで一般的なもの)のモニタリングが不十分であることを示す。
したがって,適切なインスタンス難易度メトリクスを用いた早期トレーニングダイナミクスの監視の必要性を強調する。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Early learning of the optimal constant solution in neural networks and humans [4.016584525313835]
対象関数の学習は、ネットワークが最適定数解(OCS)を学習する初期段階に先立って行われることを示す。
我々は、バイアス項がなくてもOCSの学習が出現し、入力データの一般的な相関によって等価に駆動されることを示す。
我々の研究は、OCSを教師付き誤り訂正学習における普遍的な学習原則として示唆している。
論文 参考訳(メタデータ) (2024-06-25T11:12:52Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Towards Causal Deep Learning for Vulnerability Detection [31.59558109518435]
ソフトウェア工学モデルに計算に基づく因果学習を導入する。
以上の結果から,CausalVulはモデル精度,ロバスト性,OOD性能を一貫して改善した。
論文 参考訳(メタデータ) (2023-10-12T00:51:06Z) - Adaptive Online Incremental Learning for Evolving Data Streams [4.3386084277869505]
最初の大きな困難はコンセプトドリフトであり、つまり、ストリーミングデータの確率分布はデータが到着するにつれて変化する。
第二の難しさは、破滅的な忘れ、すなわち、新しい知識を学ぶ前に学んだことを忘れることです。
我々の研究はこの観察に基づいており、これらの困難を克服しようと試みている。
論文 参考訳(メタデータ) (2022-01-05T14:25:53Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - When and how epochwise double descent happens [7.512375012141203]
急激な二重降下効果は、一般化誤差が最初は減少し、その後上昇し、最終的にトレーニング時間の増加とともに再び低下する。
このことは、訓練に要する時間の長さが長く、検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。
本研究は, 急激な二重降下は騒音発生に要するが, 第2の臨界騒音レベル以上の早期停止は有効であることを示す。
論文 参考訳(メタデータ) (2021-08-26T19:19:17Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。