論文の概要: On the Connections between Counterfactual Explanations and Adversarial
Examples
- arxiv url: http://arxiv.org/abs/2106.09992v1
- Date: Fri, 18 Jun 2021 08:22:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 23:16:18.930089
- Title: On the Connections between Counterfactual Explanations and Adversarial
Examples
- Title(参考訳): 対実的説明と反対例の関連について
- Authors: Martin Pawelczyk, Shalmali Joshi, Chirag Agarwal, Sohini Upadhyay,
Himabindu Lakkaraju
- Abstract要約: 本研究は, 対実的説明と敵対的事例との間の関係を定式化するための最初の試みである。
本分析は,いくつかの反事実的説明法と逆例生成法が等価であることを示す。
人工および実世界のデータセットを用いた広範囲な実験により理論的知見を実証的に検証した。
- 参考スコア(独自算出の注目度): 14.494463243702908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterfactual explanations and adversarial examples have emerged as critical
research areas for addressing the explainability and robustness goals of
machine learning (ML). While counterfactual explanations were developed with
the goal of providing recourse to individuals adversely impacted by algorithmic
decisions, adversarial examples were designed to expose the vulnerabilities of
ML models. While prior research has hinted at the commonalities between these
frameworks, there has been little to no work on systematically exploring the
connections between the literature on counterfactual explanations and
adversarial examples. In this work, we make one of the first attempts at
formalizing the connections between counterfactual explanations and adversarial
examples. More specifically, we theoretically analyze salient counterfactual
explanation and adversarial example generation methods, and highlight the
conditions under which they behave similarly. Our analysis demonstrates that
several popular counterfactual explanation and adversarial example generation
methods such as the ones proposed by Wachter et. al. and Carlini and Wagner
(with mean squared error loss), and C-CHVAE and natural adversarial examples by
Zhao et. al. are equivalent. We also bound the distance between counterfactual
explanations and adversarial examples generated by Wachter et. al. and DeepFool
methods for linear models. Finally, we empirically validate our theoretical
findings using extensive experimentation with synthetic and real world
datasets.
- Abstract(参考訳): 機械学習(ML)の説明可能性と堅牢性に対処するための重要な研究分野として、カウンターファクトな説明と反対例が出現している。
アルゴリズムによる決定に悪影響を及ぼす個人に会話を提供することを目的として、反実的な説明が開発されたが、敵対的な例はMLモデルの脆弱性を明らかにするように設計された。
従来の研究ではこれらの枠組みの共通点が示唆されているが、反実的な説明と敵対的な事例に関する文献間の関係を体系的に探究する作業はほとんど行われていない。
本研究は, 対実的説明と敵対的事例との間の関係を形式化するための最初の試みである。
より具体的には、理論的に正反対の説明と反対例生成法を分析し、それらが同様に振る舞う条件を明らかにする。
分析の結果,wachterらによって提唱されたような反事実的説明や逆例生成手法がいくつか提案されている。
アル
and Carlini and Wagner (平均2乗誤差損失) and C-CHVAE and natural adversarial examples by Zhao et。
アル
同等です
我々はまた、Wachterらによって生成された反実的説明と敵対的な例の間の距離を拘束する。
アル
線形モデルのためのdeepfool法です
最後に,合成および実世界のデータセットを用いた広範囲な実験により理論的知見を実証的に検証した。
関連論文リスト
- Towards Non-Adversarial Algorithmic Recourse [20.819764720587646]
反実的な説明とは対照的に、敵対的な例は、それらが根底的な真実よりも誤分類につながるという独特の特徴を持っていると論じられている。
本稿では,非対人的アルゴリズムの議論を紹介するとともに,高い状況下では,対人的特徴を示さない対実的説明を得ることが不可欠である理由を概説する。
論文 参考訳(メタデータ) (2024-03-15T14:18:21Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - On the Connection between Game-Theoretic Feature Attributions and
Counterfactual Explanations [14.552505966070358]
最も一般的な説明は、特徴属性と反実的説明である。
この研究は、ゲーム理論的特徴属性と反事実的説明の間に明確な理論的関係を確立する。
我々は、特徴的重要性を提供するために、反事実的説明を用いることの限界に光を当てた。
論文 参考訳(メタデータ) (2023-07-13T17:57:21Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - A Frequency Perspective of Adversarial Robustness [72.48178241090149]
理論的および経験的知見を参考に,周波数に基づく対向例の理解について述べる。
分析の結果,逆転例は高周波でも低周波成分でもないが,単にデータセット依存であることがわかった。
本稿では、一般に観測される精度対ロバスト性トレードオフの周波数に基づく説明法を提案する。
論文 参考訳(メタデータ) (2021-10-26T19:12:34Z) - Towards Explaining Adversarial Examples Phenomenon in Artificial Neural
Networks [8.31483061185317]
コンバージェンスの観点から,敵対的事例の存在と敵対的訓練について検討した。
ANNにおける点収束がこれらの観測を説明できる証拠を提供する。
論文 参考訳(メタデータ) (2021-07-22T11:56:14Z) - When and How to Fool Explainable Models (and Humans) with Adversarial
Examples [1.439518478021091]
説明可能な機械学習モデルに対する敵攻撃の可能性と限界について検討する。
まず、逆例の概念を拡張して、説明可能な機械学習シナリオに適合する。
次に、説明可能なモデルに対して、逆例を生成できるかどうかを総合的に検討する枠組みを提案する。
論文 参考訳(メタデータ) (2021-07-05T11:20:55Z) - Adversarial Examples for Unsupervised Machine Learning Models [71.81480647638529]
回避予測を引き起こすアドリラルな例は、機械学習モデルの堅牢性を評価し改善するために広く利用されている。
教師なしモデルに対する逆例生成の枠組みを提案し,データ拡張への新たな応用を実証する。
論文 参考訳(メタデータ) (2021-03-02T17:47:58Z) - Advocating for Multiple Defense Strategies against Adversarial Examples [66.90877224665168]
ニューラルネットワークを$ell_infty$敵の例から保護するために設計された防御機構が、性能の低下を実証的に観察されている。
本稿では,この観測を検証した幾何学的解析を行う。
そこで本研究では,この現象の実際的影響を説明するための実証的な知見を多数提示する。
論文 参考訳(メタデータ) (2020-12-04T14:42:46Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Learning explanations that are hard to vary [75.30552491694066]
例を越えた平均化は、異なる戦略を縫合する記憶とパッチワークのソリューションに有利であることを示す。
そこで我々は論理ANDに基づく単純な代替アルゴリズムを提案し,実験的に検証する。
論文 参考訳(メタデータ) (2020-09-01T10:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。