論文の概要: Fixing confirmation bias in feature attribution methods via semantic
match
- arxiv url: http://arxiv.org/abs/2307.00897v3
- Date: Mon, 26 Feb 2024 10:34:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 19:26:23.877242
- Title: Fixing confirmation bias in feature attribution methods via semantic
match
- Title(参考訳): セマンティクスマッチングによる特徴帰属法における確認バイアスの修正
- Authors: Giovanni Cin\`a, Daniel Fernandez-Llaneza, Ludovico Deponte, Nishant
Mishra, Tabea E. R\"ober, Sandro Pezzelle, Iacer Calixto, Rob Goedhart,
\c{S}. \.Ilker Birbil
- Abstract要約: モデル上の仮説が特徴属性によって確認されるかどうかを検証するためには,構造的アプローチが必要である,と我々は主張する。
これは、人間の概念と(サブシンボリックな)説明の「セマンティックマッチ」と呼ばれるものです。
- 参考スコア(独自算出の注目度): 4.733072355085082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature attribution methods have become a staple method to disentangle the
complex behavior of black box models. Despite their success, some scholars have
argued that such methods suffer from a serious flaw: they do not allow a
reliable interpretation in terms of human concepts. Simply put, visualizing an
array of feature contributions is not enough for humans to conclude something
about a model's internal representations, and confirmation bias can trick users
into false beliefs about model behavior. We argue that a structured approach is
required to test whether our hypotheses on the model are confirmed by the
feature attributions. This is what we call the "semantic match" between human
concepts and (sub-symbolic) explanations. Building on the conceptual framework
put forward in Cin\`a et al. [2023], we propose a structured approach to
evaluate semantic match in practice. We showcase the procedure in a suite of
experiments spanning tabular and image data, and show how the assessment of
semantic match can give insight into both desirable (e.g., focusing on an
object relevant for prediction) and undesirable model behaviors (e.g., focusing
on a spurious correlation). We couple our experimental results with an analysis
on the metrics to measure semantic match, and argue that this approach
constitutes the first step towards resolving the issue of confirmation bias in
XAI.
- Abstract(参考訳): 特徴帰属法は,ブラックボックスモデルの複雑な挙動を解消するための重要な手法となっている。
その成功にもかかわらず、一部の学者はそのような方法が深刻な欠陥に悩まされていると論じている。
簡単に言えば、一連の機能のコントリビューションを視覚化することは、人間がモデルの内部表現について何かを結論付けるのに十分ではない。
モデル上の仮説が特徴属性によって確認されるかどうかを検証するためには,構造的アプローチが必要である。
これは、人間の概念と(サブシンボリックな)説明の「セマンティックマッチ」と呼ばれるものです。
cin\`a et al で示された概念的枠組みに基づく構築。
2023] 意味マッチングを実際に評価するための構造化手法を提案する。
提案手法は表や画像データにまたがる一連の実験で紹介され、意味マッチングの評価が望ましい(例えば、予測に関連のあるオブジェクトにフォーカスする)ことと望ましくないモデル行動(例えば、刺激的な相関にフォーカスする)の両方にどのように洞察を与えるかを示す。
本研究は, セマンティックマッチングを測る指標の分析結果と組み合わせ, 提案手法がXAIにおける確証バイアスの解消に向けた第一歩であると主張している。
関連論文リスト
- Counterfactual Generation from Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
我々の実験は、このアプローチが有意義な反事実を生み出すことを示した。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - Evaluating the Robustness of Interpretability Methods through
Explanation Invariance and Equivariance [72.50214227616728]
解釈可能性法は、それらの説明が説明されたモデルを忠実に記述した場合にのみ有用である。
特定の対称性群の下で予測が不変であるニューラルネットワークを考える。
論文 参考訳(メタデータ) (2023-04-13T17:59:03Z) - ContraFeat: Contrasting Deep Features for Semantic Discovery [102.4163768995288]
StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。
StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。
本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
論文 参考訳(メタデータ) (2022-12-14T15:22:13Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Counterfactual Evaluation for Explainable AI [21.055319253405603]
そこで本稿では, 文献的推論の観点から, 説明の忠実さを評価する新しい手法を提案する。
離散シナリオと連続シナリオの両方において適切な反事実を見つけるために2つのアルゴリズムを導入し、取得した反事実を用いて忠実度を測定する。
論文 参考訳(メタデータ) (2021-09-05T01:38:49Z) - On the Lack of Robust Interpretability of Neural Text Classifiers [14.685352584216757]
本研究では,事前学習したトランスフォーマーエンコーダをベースとしたニューラルテキスト分類器の解釈の堅牢性を評価する。
どちらのテストも、期待された行動から驚くほど逸脱しており、実践者が解釈から引き出す可能性のある洞察の程度について疑問を呈している。
論文 参考訳(メタデータ) (2021-06-08T18:31:02Z) - Robust Semantic Interpretability: Revisiting Concept Activation Vectors [0.0]
画像分類のための解釈可能性手法は、モデルが系統的に偏りがあるか、あるいは人間と同じ手掛かりに従うかを明らかにすることを試みる。
提案するRobust Concept Activation Vectors (RCAV) は,個々のモデル予測やモデル全体の振る舞いに対する意味概念の影響を定量化する。
論文 参考訳(メタデータ) (2021-04-06T20:14:59Z) - Pair the Dots: Jointly Examining Training History and Test Stimuli for
Model Interpretability [44.60486560836836]
モデルからの予測は、学習履歴とテスト刺激の組み合わせによって行われる。
モデルの予測を解釈する既存の方法は、テスト刺激または学習履歴の1つの側面しかキャプチャできない。
本研究では,学習履歴とテスト刺激を共同で調べることで,モデルの予測を解釈しやすくするための,効率的かつ異なるアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-14T10:45:01Z) - Evaluating the Disentanglement of Deep Generative Models through
Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。
複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文 参考訳(メタデータ) (2020-06-05T20:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。