論文の概要: Faithful Model Explanations through Energy-Constrained Conformal
Counterfactuals
- arxiv url: http://arxiv.org/abs/2312.10648v1
- Date: Sun, 17 Dec 2023 08:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 15:20:51.829022
- Title: Faithful Model Explanations through Energy-Constrained Conformal
Counterfactuals
- Title(参考訳): エネルギー制約付き等方性対数による忠実モデル記述
- Authors: Patrick Altmeyer, Mojtaba Farmanbar, Arie van Deursen, Cynthia C. S.
Liem
- Abstract要約: ブラックボックスモデルを説明するための直感的で直感的な説明を提供する。
既存の作業は主に、入力データの分散方法を学ぶために代理モデルに依存しています。
そこで本研究では,モデルが許容する範囲でのみ有効な,エネルギー制約のあるコンフォーマル・カウンセリングを生成するための新しいアルゴリズムフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.67633872254042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterfactual explanations offer an intuitive and straightforward way to
explain black-box models and offer algorithmic recourse to individuals. To
address the need for plausible explanations, existing work has primarily relied
on surrogate models to learn how the input data is distributed. This
effectively reallocates the task of learning realistic explanations for the
data from the model itself to the surrogate. Consequently, the generated
explanations may seem plausible to humans but need not necessarily describe the
behaviour of the black-box model faithfully. We formalise this notion of
faithfulness through the introduction of a tailored evaluation metric and
propose a novel algorithmic framework for generating Energy-Constrained
Conformal Counterfactuals that are only as plausible as the model permits.
Through extensive empirical studies, we demonstrate that ECCCo reconciles the
need for faithfulness and plausibility. In particular, we show that for models
with gradient access, it is possible to achieve state-of-the-art performance
without the need for surrogate models. To do so, our framework relies solely on
properties defining the black-box model itself by leveraging recent advances in
energy-based modelling and conformal prediction. To our knowledge, this is the
first venture in this direction for generating faithful counterfactual
explanations. Thus, we anticipate that ECCCo can serve as a baseline for future
research. We believe that our work opens avenues for researchers and
practitioners seeking tools to better distinguish trustworthy from unreliable
models.
- Abstract(参考訳): 対物的説明は、ブラックボックスのモデルを説明し、個人にアルゴリズムによる会話を提供する直感的で分かりやすい方法を提供する。
妥当な説明の必要性に対処するため、既存の作業は主に、入力データの分散方法を学ぶための代理モデルに依存しています。
これにより、モデル自体からサロゲートへのデータの現実的な説明を学ぶタスクを効果的に再配置する。
したがって、生成された説明は人間にとって妥当に見えるかもしれないが、必ずしもブラックボックスモデルの振る舞いを忠実に記述する必要はない。
本稿では,この忠実性の概念を定式化した評価基準の導入を通じて定式化し,モデルが許す限りの信頼性を持つ,エネルギー制約付き共形相反事実を生成するための新しいアルゴリズム的枠組みを提案する。
広範な実証研究を通じて,ECCCoは忠実さと妥当性の必要性を両立することを示した。
特に,グラデーションアクセスのあるモデルでは,サロゲートモデルなしで最先端の性能を実現することが可能であることを示す。
そのため,我々のフレームワークは,エネルギーベースモデリングと共形予測の最近の進歩を活用して,ブラックボックスモデル自体を定義する特性にのみ依存する。
私たちの知る限りでは、これは忠実な反事実的説明を生み出す最初の試みです。
そこで我々は,ECCCoが今後の研究のベースラインとなることを期待する。
私たちの研究は、信頼に値するものを信頼できないモデルと区別するツールを求める研究者や実践者に道を開くと信じています。
関連論文リスト
- Fast Explainability via Feasible Concept Sets Generator [7.011763596804071]
モデルに依存しないアプローチの普遍性とモデル固有のアプローチの効率とのギャップを埋める。
まず、人間の理解可能な概念の集合を通して説明を定義する。
第二に、予測モデルに付随する説明として、最小限の可能な集合生成器を学習できることが示される。
論文 参考訳(メタデータ) (2024-05-29T00:01:40Z) - Discriminative Feature Attributions: Bridging Post Hoc Explainability
and Inherent Interpretability [29.459228981179674]
ポストホックの説明は、基礎となるタスクにとって重要でない、あるいは差別的でない機能に、誤って高い重要性がある。
一方、モデルアーキテクチャに説明を明示的にエンコードすることでこれらの問題を回避することができる。
本研究では,ディストラクタ消去に頑健なブラックボックスモデルを適応させる手法であるディストラクタ消去調整法(DiET)を提案する。
論文 参考訳(メタデータ) (2023-07-27T17:06:02Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - ExSum: From Local Explanations to Model Understanding [6.23934576145261]
ブラックボックスモデルの動作メカニズムを理解するために,解釈可能性法を開発した。
この目標をフルフィルするには、これらのメソッドによって生成された説明が正しいことと、人々が容易に確実に理解できることの両方が必要である。
本稿では,モデル理解の定量化のための数学的枠組みである説明要約(ExSum)を紹介する。
論文 参考訳(メタデータ) (2022-04-30T02:07:20Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z) - Explainable Deep Modeling of Tabular Data using TableGraphNet [1.376408511310322]
付加的特徴属性の形で説明可能な予測を生成する新しいアーキテクチャを提案する。
説明可能なモデルはブラックボックスモデルと同じレベルの性能が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T20:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。