論文の概要: Preemptively Pruning Clever-Hans Strategies in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2304.05727v2
- Date: Wed, 4 Oct 2023 09:11:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 18:42:31.597276
- Title: Preemptively Pruning Clever-Hans Strategies in Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークにおけるプリエンプティブプルーニングクリーバーハンス戦略
- Authors: Lorenz Linhardt, Klaus-Robert M\"uller, Gr\'egoire Montavon
- Abstract要約: ユーザによる説明の受け入れは、機械学習モデルが正常に機能することを保証するものではないことを示す。
我々は,肯定的な説明フィードバックの対象になっていないMLモデルの変動を事前に誘発する新しい手法,Explanation-Guided Exposure Minimization (EGEM) を寄贈する。
- 参考スコア(独自算出の注目度): 3.5731453175126027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainable AI has become a popular tool for validating machine learning
models. Mismatches between the explained model's decision strategy and the
user's domain knowledge (e.g. Clever Hans effects) have also been recognized as
a starting point for improving faulty models. However, it is less clear what to
do when the user and the explanation agree. In this paper, we demonstrate that
acceptance of explanations by the user is not a guarantee for a machine
learning model to function well, in particular, some Clever Hans effects may
remain undetected. Such hidden flaws of the model can nevertheless be
mitigated, and we demonstrate this by contributing a new method,
Explanation-Guided Exposure Minimization (EGEM), that preemptively prunes
variations in the ML model that have not been the subject of positive
explanation feedback. Experiments on natural image data demonstrate that our
approach leads to models that strongly reduce their reliance on hidden Clever
Hans strategies, and consequently achieve higher accuracy on new data.
- Abstract(参考訳): 説明可能なAIは、マシンラーニングモデルを検証するための一般的なツールになっている。
説明されたモデルの決定戦略とユーザのドメイン知識(例えば賢いハンス効果)のミスマッチも、欠陥モデルを改善するための出発点として認識されている。
しかし、ユーザと説明が同意すれば、何をすべきかは明確ではない。
本稿では,ユーザによる説明の受け入れが,機械学習モデルがうまく機能する保証ではないことを実証する。
このような隠れたモデル欠陥を緩和することはできるが、我々は、肯定的な説明フィードバックの対象になっていないMLモデルの変動を未然に誘発する新しい手法、Explaination-Guided Exposure Minimization (EGEM) を提供することによってこれを実証する。
自然画像データを用いた実験により,本手法は隠れたClever Hans戦略への依存を強く低減し,その結果,新たなデータに対する精度の向上につながることが示された。
関連論文リスト
- Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - Contrastive Unsupervised Learning of World Model with Invariant Causal
Features [20.116319631571095]
共分散原理を用いて因果的特徴を学習する世界モデルを提案する。
対照的な教師なし学習を用いて、不変因果関係の特徴を学習する。
提案モデルは最先端のモデルと同等に動作する。
論文 参考訳(メタデータ) (2022-09-29T16:49:24Z) - Improving the Adversarial Robustness of NLP Models by Information
Bottleneck [112.44039792098579]
非破壊機能は敵によって容易に操作でき、NLPモデルを騙すことができる。
本研究では,情報ボトルネック理論を用いて,タスク固有のロバストな特徴を捕捉し,非ロバストな特徴を除去する可能性を検討する。
情報ボトルネックに基づく手法を用いてトレーニングしたモデルでは,ロバストな精度で大幅な改善が達成できることを示す。
論文 参考訳(メタデータ) (2022-06-11T12:12:20Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Unsupervised Detection of Adversarial Examples with Model Explanations [0.6091702876917279]
本稿では,モデル動作を説明するために開発された手法を用いて,逆例を検出するための簡易かつ効果的な手法を提案する。
MNIST手書きデータセットを用いて評価したところ,本手法は高い信頼度で敵のサンプルを検出することができることがわかった。
論文 参考訳(メタデータ) (2021-07-22T06:54:18Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Understanding the Mechanics of SPIGOT: Surrogate Gradients for Latent
Structure Learning [20.506232306308977]
潜在構造モデルは、言語データをモデリングするための強力なツールである。
これらのモデルのエンドツーエンドトレーニングの課題の1つは、ヌル勾配を持つargmax演算である。
下流学習目標を引き上げる角度から潜在構造学習を探索する。
論文 参考訳(メタデータ) (2020-10-05T21:56:00Z) - Remembering for the Right Reasons: Explanations Reduce Catastrophic
Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。
RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。
メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文 参考訳(メタデータ) (2020-10-04T10:05:27Z) - Luring of transferable adversarial perturbations in the black-box
paradigm [0.0]
我々は、ブラックボックス転送攻撃に対するモデルの堅牢性を改善するための新しいアプローチを提案する。
除去可能な追加ニューラルネットワークが対象モデルに含まれており、テクスチャリング効果を誘導するように設計されている。
提案手法は,対象モデルの予測にのみアクセス可能であり,ラベル付きデータセットを必要としない。
論文 参考訳(メタデータ) (2020-04-10T06:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。