論文の概要: Post hoc Explanations may be Ineffective for Detecting Unknown Spurious
Correlation
- arxiv url: http://arxiv.org/abs/2212.04629v1
- Date: Fri, 9 Dec 2022 02:05:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 15:38:03.556883
- Title: Post hoc Explanations may be Ineffective for Detecting Unknown Spurious
Correlation
- Title(参考訳): ホック後説明は未知の偽相関の検出に有効ではないかもしれない
- Authors: Julius Adebayo, Michael Muelly, Hal Abelson, Been Kim
- Abstract要約: 本研究では,3種類のポストホックモデル説明が,訓練データ中の刺激信号に依存するモデルの検出に有効かどうかを検討する。
半合成データセットと予め特定された突発的アーティファクトを併用した経験的手法を設計する。
その結果,テスト時に破片が不明な場合には,ポストホックな説明法が有効でないことがわかった。
- 参考スコア(独自算出の注目度): 12.185584875925906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate whether three types of post hoc model explanations--feature
attribution, concept activation, and training point ranking--are effective for
detecting a model's reliance on spurious signals in the training data.
Specifically, we consider the scenario where the spurious signal to be detected
is unknown, at test-time, to the user of the explanation method. We design an
empirical methodology that uses semi-synthetic datasets along with
pre-specified spurious artifacts to obtain models that verifiably rely on these
spurious training signals. We then provide a suite of metrics that assess an
explanation method's reliability for spurious signal detection under various
conditions. We find that the post hoc explanation methods tested are
ineffective when the spurious artifact is unknown at test-time especially for
non-visible artifacts like a background blur. Further, we find that feature
attribution methods are susceptible to erroneously indicating dependence on
spurious signals even when the model being explained does not rely on spurious
artifacts. This finding casts doubt on the utility of these approaches, in the
hands of a practitioner, for detecting a model's reliance on spurious signals.
- Abstract(参考訳): 学習データにおけるスプリアス信号に依存したモデルの検出には, 特徴帰属, 概念活性化, 訓練点ランキングの3種類のポストホックモデル説明が有効であるかを検討する。
具体的には,提案手法のユーザに対して,検出対象の刺激信号が未知であるシナリオをテスト時に検討する。
半合成データセットと予め特定されたスプリアスアーティファクトを併用して,これらのスプリアストレーニング信号に確実に依存するモデルを得る経験的方法論を設計した。
次に,様々な条件下でのスプリアス信号検出のための説明手法の信頼性を評価する指標群を提案する。
特に背景のぼやけのような非可視的アーティファクトに対して,テスト時に突発的アーティファクトが不明な場合には,ポストホックな説明方法が有効でないことが判明した。
さらに,説明対象のモデルがスプリアスアーティファクトに依存しない場合でも,スプリアス信号への依存性を誤認識する恐れがあることがわかった。
この発見は、モデルがスプリアス信号に依存することを検出するために、実践者の手によってこれらのアプローチの有用性に疑問を投げかける。
関連論文リスト
- Demystifying amortized causal discovery with transformers [21.058343547918053]
観測データからの因果発見のための教師付き学習アプローチは、しばしば競争性能を達成する。
本研究では,CSIvAについて検討する。CSIvAは,合成データのトレーニングと実データへの転送を約束するトランスフォーマーモデルである。
既存の識別可能性理論とギャップを埋め、トレーニングデータ分布の制約がテスト観測の事前を暗黙的に定義していることを示します。
論文 参考訳(メタデータ) (2024-05-27T08:17:49Z) - Mitigating Feature Gap for Adversarial Robustness by Feature
Disentanglement [61.048842737581865]
逆方向の微調整法は, 逆方向の訓練方法で, 自然に事前訓練されたモデルを微調整することにより, 逆方向の強靭性を高めることを目的としている。
特徴ギャップの原因となる潜伏する特徴を明示的にモデル化し,取り除く,アンタングルメントに基づくアプローチを提案する。
3つのベンチマークデータセットに対する実証的な評価は、我々のアプローチが既存の逆方向の微調整法や逆方向のトレーニングベースラインを超えていることを示している。
論文 参考訳(メタデータ) (2024-01-26T08:38:57Z) - Detecting Spurious Correlations via Robust Visual Concepts in Real and
AI-Generated Image Classification [12.992095539058022]
本稿では,潜在的スパイラル相関を効率的に検出する汎用手法を提案する。
提案手法は,ピクセルレベルのアノテーションを不要にしつつ,直感的な説明を提供する。
また,本手法は,生成モデル由来の下流アプリケーションに伝播する急激な相関を検出するのにも適している。
論文 参考訳(メタデータ) (2023-11-03T01:12:35Z) - Right for the Wrong Reason: Can Interpretable ML Techniques Detect
Spurious Correlations? [2.7558542803110244]
本稿では,素早い相関関係を正確に識別する説明手法の能力を評価するための厳密な評価手法を提案する。
ポストホックな手法であるSHAPと本質的に解釈可能なAttri-Netが最高のパフォーマンスを提供することがわかった。
論文 参考訳(メタデータ) (2023-07-23T14:43:17Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - ReDFeat: Recoupling Detection and Description for Multimodal Feature
Learning [51.07496081296863]
我々は、相互重み付け戦略による多モーダル特徴学習の検出と記述の独立した制約を再定義する。
本研究では,大きな受容場を有し,学習可能な非最大抑制層を備える検出器を提案する。
我々は,特徴マッチングと画像登録タスクにおける特徴量を評価するために,クロス可視,赤外線,近赤外,合成開口レーダ画像ペアを含むベンチマークを構築した。
論文 参考訳(メタデータ) (2022-05-16T04:24:22Z) - The Familiarity Hypothesis: Explaining the Behavior of Deep Open Set
Methods [86.39044549664189]
特徴ベクトルデータに対する異常検出アルゴリズムは異常を外れ値として識別するが、外れ値検出はディープラーニングではうまく機能しない。
本論文は, 新規性の有無ではなく, 慣れ親しんだ特徴の欠如を検知しているため, これらの手法が成功するというFamiliarity仮説を提案する。
本論文は,親しみやすさの検出が表現学習の必然的な結果であるかどうかを論じる。
論文 参考訳(メタデータ) (2022-03-04T18:32:58Z) - On Predictive Explanation of Data Anomalies [3.1798318618973362]
PROTEUSは、不均衡なデータセットの機能選択用に設計されたAutoMLパイプラインである。
教師なし検出器の決定面を近似することで予測的な説明を生成する。
予期せぬデータで予測性能を確実に推定する。
論文 参考訳(メタデータ) (2021-10-18T16:59:28Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。
本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文 参考訳(メタデータ) (2020-12-05T17:30:35Z) - Debugging Tests for Model Explanations [18.073554618753395]
テストされたメソッドは、急激なバックグラウンドバグを診断することができるが、誤ってラベル付けされたトレーニング例を決定的に識別することはできない。
被験者は属性を用いて欠陥モデルを特定するのに失敗するが、主にモデル予測に頼っている。
論文 参考訳(メタデータ) (2020-11-10T22:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。