論文の概要: Shortcut Learning Through the Lens of Early Training Dynamics
- arxiv url: http://arxiv.org/abs/2302.09344v1
- Date: Sat, 18 Feb 2023 14:37:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 19:03:36.036843
- Title: Shortcut Learning Through the Lens of Early Training Dynamics
- Title(参考訳): 初期のトレーニングダイナミクスのレンズによるショートカット学習
- Authors: Nihal Murali, Aahlad Manas Puli, Ke Yu, Rajesh Ranganath, Kayhan
Batmanghelich
- Abstract要約: ディープニューラルネットワーク(DNN)は、デプロイメント中のDNNの一般化を損なうショートカットパターンを学ぶ傾向がある。
本研究の目的は、学習過程における脳内ニューロンの学習ダイナミクスのレンズによるショートカット学習をよりよく理解することである。
- 参考スコア(独自算出の注目度): 35.61220692320149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Neural Networks (DNNs) are prone to learn shortcut patterns that damage
the generalization of the DNN during deployment. Shortcut Learning is
concerning, particularly when the DNNs are applied to safety-critical domains.
This paper aims to better understand shortcut learning through the lens of the
learning dynamics of the internal neurons during the training process. More
specifically, we make the following observations: (1) While previous works
treat shortcuts as synonymous with spurious correlations, we emphasize that not
all spurious correlations are shortcuts. We show that shortcuts are only those
spurious features that are "easier" than the core features. (2) We build upon
this premise and use instance difficulty methods (like Prediction Depth) to
quantify "easy" and to identify this behavior during the training phase. (3) We
empirically show that shortcut learning can be detected by observing the
learning dynamics of the DNN's early layers, irrespective of the network
architecture used. In other words, easy features learned by the initial layers
of a DNN early during the training are potential shortcuts. We verify our
claims on simulated and real medical imaging data and justify the empirical
success of our hypothesis by showing the theoretical connections between
Prediction Depth and information-theoretic concepts like V-usable information.
Lastly, our experiments show the insufficiency of monitoring only accuracy
plots during training (as is common in machine learning pipelines), and we
highlight the need for monitoring early training dynamics using example
difficulty metrics.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、デプロイメント中のDNNの一般化を損なうショートカットパターンを学ぶ傾向がある。
近道学習は特に安全クリティカルな領域にdnnを適用する場合に重要である。
本稿では,学習過程における脳内ニューロンの学習力学のレンズによるショートカット学習の理解を深めることを目的とする。
より具体的には、(1)以前の研究はショートカットをスプリアス相関と同義語として扱うが、全てのスプリアス相関はショートカットではないことを強調する。
ショートカットは,コア機能よりも"簡単"な,刺激的な機能に過ぎません。
2)この前提に基づいてインスタンス難易度法(予測深さなど)を用いて,"容易"を定量化し,トレーニング段階での動作を識別する。
3)ネットワークアーキテクチャに関係なく,DNNの初期レイヤの学習ダイナミクスを観察することにより,ショートカット学習が検出できることを実証的に示す。
言い換えれば、トレーニングの初期にDNNの初期レイヤで学んだ簡単な機能は、潜在的なショートカットである。
シミュレーションおよび実際の医用画像データのクレームを検証するとともに、予測深度とV可視情報のような情報理論概念との理論的関係を示すことによって、仮説の実証的成功を正当化する。
最後に,本実験では(機械学習パイプラインで一般的であるように)トレーニング中の精度プロットのみを監視することの不十分さを示し,サンプル難易度メトリクスを用いた早期トレーニングダイナミクスの監視の必要性を強調した。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Early learning of the optimal constant solution in neural networks and humans [4.016584525313835]
対象関数の学習は、ネットワークが最適定数解(OCS)を学習する初期段階に先立って行われることを示す。
我々は、バイアス項がなくてもOCSの学習が出現し、入力データの一般的な相関によって等価に駆動されることを示す。
我々の研究は、OCSを教師付き誤り訂正学習における普遍的な学習原則として示唆している。
論文 参考訳(メタデータ) (2024-06-25T11:12:52Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Towards Causal Deep Learning for Vulnerability Detection [31.59558109518435]
ソフトウェア工学モデルに計算に基づく因果学習を導入する。
以上の結果から,CausalVulはモデル精度,ロバスト性,OOD性能を一貫して改善した。
論文 参考訳(メタデータ) (2023-10-12T00:51:06Z) - Adaptive Online Incremental Learning for Evolving Data Streams [4.3386084277869505]
最初の大きな困難はコンセプトドリフトであり、つまり、ストリーミングデータの確率分布はデータが到着するにつれて変化する。
第二の難しさは、破滅的な忘れ、すなわち、新しい知識を学ぶ前に学んだことを忘れることです。
我々の研究はこの観察に基づいており、これらの困難を克服しようと試みている。
論文 参考訳(メタデータ) (2022-01-05T14:25:53Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - When and how epochwise double descent happens [7.512375012141203]
急激な二重降下効果は、一般化誤差が最初は減少し、その後上昇し、最終的にトレーニング時間の増加とともに再び低下する。
このことは、訓練に要する時間の長さが長く、検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。
本研究は, 急激な二重降下は騒音発生に要するが, 第2の臨界騒音レベル以上の早期停止は有効であることを示す。
論文 参考訳(メタデータ) (2021-08-26T19:19:17Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。