論文の概要: On the Foundations of Shortcut Learning
- arxiv url: http://arxiv.org/abs/2310.16228v2
- Date: Thu, 11 Jul 2024 23:03:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 05:46:55.511047
- Title: On the Foundations of Shortcut Learning
- Title(参考訳): ショートカット学習の基礎について
- Authors: Katherine L. Hermann, Hossein Mobahi, Thomas Fel, Michael C. Mozer,
- Abstract要約: 予測と可用性が形状モデルの特徴的利用とどのように相互作用するかを考察する。
線形モデルは比較的偏りがないが、ReLUやTanhの単位を持つ単一の隠蔽層を導入するとバイアスが生じる。
- 参考スコア(独自算出の注目度): 20.53986437152018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep-learning models can extract a rich assortment of features from data. Which features a model uses depends not only on \emph{predictivity} -- how reliably a feature indicates training-set labels -- but also on \emph{availability} -- how easily the feature can be extracted from inputs. The literature on shortcut learning has noted examples in which models privilege one feature over another, for example texture over shape and image backgrounds over foreground objects. Here, we test hypotheses about which input properties are more available to a model, and systematically study how predictivity and availability interact to shape models' feature use. We construct a minimal, explicit generative framework for synthesizing classification datasets with two latent features that vary in predictivity and in factors we hypothesize to relate to availability, and we quantify a model's shortcut bias -- its over-reliance on the shortcut (more available, less predictive) feature at the expense of the core (less available, more predictive) feature. We find that linear models are relatively unbiased, but introducing a single hidden layer with ReLU or Tanh units yields a bias. Our empirical findings are consistent with a theoretical account based on Neural Tangent Kernels. Finally, we study how models used in practice trade off predictivity and availability in naturalistic datasets, discovering availability manipulations which increase models' degree of shortcut bias. Taken together, these findings suggest that the propensity to learn shortcut features is a fundamental characteristic of deep nonlinear architectures warranting systematic study given its role in shaping how models solve tasks.
- Abstract(参考訳): ディープラーニングモデルは、データから豊富な特徴を抽出することができる。
モデルが使用する機能は,‘emph{predictivity}’ – トレーニングセットラベルを確実に示す機能 – だけでなく,‘emph{availability}’ – に依存する。
ショートカット学習に関する文献では、例えば、形状上のテクスチャや、前景の物体上の画像背景など、モデルが別の特徴を特権化する例が指摘されている。
本稿では,モデルに対してどの入力特性が利用可能かという仮説を検証し,モデルの特徴利用に対する予測性と可利用性がどのように相互作用するかを体系的に検討する。
我々は、予測可能性や、可用性に関連する要因によって異なる2つの潜在的特徴を持つ分類データセットを合成するための最小限の、明示的な生成フレームワークを構築し、コア機能を犠牲にして、ショートカット(より入手しやすく、予測しにくい)機能に過度に依存するモデルのショートカットバイアスを定量化する。
線形モデルは比較的偏りがないが、ReLUやTanhの単位を持つ単一の隠蔽層を導入するとバイアスが生じる。
我々の経験的発見は、Neural Tangent Kernelsに基づく理論的考察と一致している。
最後に、本研究では、自然主義データセットにおける予測と可用性のトレードオフ、モデルのショートカットバイアスの程度を増大させるアベイラビリティ操作の発見について検討する。
これらの結果は、モデルがタスクをどう解決するかを形作る役割を考慮し、体系的な研究を保証している深い非線形アーキテクチャの基本的特徴として、ショートカットの特徴を学習する妥当性が示唆されている。
関連論文リスト
- IGANN Sparse: Bridging Sparsity and Interpretability with Non-linear Insight [4.010646933005848]
IGANN Sparseは、一般化された加法モデルのファミリーから生まれた、新しい機械学習モデルである。
トレーニング中の非線形特徴選択プロセスを通じて、スパシティを促進する。
これにより、予測性能を犠牲にすることなく、モデル空間の改善による解釈可能性を保証する。
論文 参考訳(メタデータ) (2024-03-17T22:44:36Z) - Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - Revealing Model Biases: Assessing Deep Neural Networks via Recovered
Sample Analysis [9.05607520128194]
本稿では、深層ニューラルネットワーク(DNN)がトレーニングサンプルの第一概念に依存しているかどうかを簡易かつ費用対効果で評価する手法を提案する。
提案手法は,テストや一般化のサンプルを一切必要とせず,訓練対象モデルのパラメータとマージンにあるトレーニングデータのみを必要とする。
論文 参考訳(メタデータ) (2023-06-10T11:20:04Z) - On the Joint Interaction of Models, Data, and Features [82.60073661644435]
本稿では,データとモデル間の相互作用を実験的に解析する新しいツールであるインタラクションテンソルを紹介する。
これらの観測に基づいて,特徴学習のための概念的枠組みを提案する。
この枠組みの下では、一つの仮説に対する期待された精度と一対の仮説に対する合意はどちらも閉形式で導出することができる。
論文 参考訳(メタデータ) (2023-06-07T21:35:26Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z) - What shapes feature representations? Exploring datasets, architectures,
and training [14.794135558227682]
自然主義的な学習問題では、モデルの入力には幅広い特徴が含まれており、いくつかは手元にあるタスクに有用である。
これらの疑問はモデル決定の基盤を理解する上で重要である。
入力特徴のタスク関連性を直接制御できる合成データセットを用いて,これらの質問について検討する。
論文 参考訳(メタデータ) (2020-06-22T17:02:25Z) - Adversarial Infidelity Learning for Model Interpretation [43.37354056251584]
本稿では,モデル解釈のためのモデル非依存能率直接(MEED)FSフレームワークを提案する。
我々のフレームワークは、正当性、ショートカット、モデルの識別可能性、情報伝達に関する懸念を緩和する。
我々のAILメカニズムは、選択した特徴と目標の間の条件分布を学習するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-09T16:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。