論文の概要: Fairwashing Explanations with Off-Manifold Detergent
- arxiv url: http://arxiv.org/abs/2007.09969v1
- Date: Mon, 20 Jul 2020 09:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 12:47:45.923650
- Title: Fairwashing Explanations with Off-Manifold Detergent
- Title(参考訳): オフマンド洗剤によるフェアウォッシングの説明
- Authors: Christopher J. Anders, Plamen Pasliev, Ann-Kathrin Dombrowski,
Klaus-Robert M\"uller and Pan Kessel
- Abstract要約: 説明法はブラックボックス分類器をより透明にすることを約束する。
理論的にも実験的にも、これらの希望が現在根拠のないものであることを示す。
本稿では,既存の説明手法を改良し,より堅牢にすることを提案する。
- 参考スコア(独自算出の注目度): 4.934817254755008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explanation methods promise to make black-box classifiers more transparent.
As a result, it is hoped that they can act as proof for a sensible, fair and
trustworthy decision-making process of the algorithm and thereby increase its
acceptance by the end-users. In this paper, we show both theoretically and
experimentally that these hopes are presently unfounded. Specifically, we show
that, for any classifier $g$, one can always construct another classifier
$\tilde{g}$ which has the same behavior on the data (same train, validation,
and test error) but has arbitrarily manipulated explanation maps. We derive
this statement theoretically using differential geometry and demonstrate it
experimentally for various explanation methods, architectures, and datasets.
Motivated by our theoretical insights, we then propose a modification of
existing explanation methods which makes them significantly more robust.
- Abstract(参考訳): 説明方法はブラックボックス分類器をより透明にすることを約束する。
その結果、アルゴリズムの賢明で公平で信頼できる意思決定プロセスの証明として機能し、それによってエンドユーザの受け入れを増加させることが期待されている。
本稿では,理論的および実験的に,これらの希望が現在未確立であることを示す。
具体的には、任意の分類子 $g$ に対して、データ(同じトレイン、バリデーション、テストエラー)上で同じ振る舞いを持つが任意に操作された説明マップを持つ別の分類子 $\tilde{g}$ を常に構築できることを示す。
本稿では, 微分幾何学を用いて理論的に導出し, 様々な説明手法, アーキテクチャ, データセットについて実験的に実証する。
理論的な洞察に触発され、既存の説明法を改良し、より堅牢にすることを提案する。
関連論文リスト
- Causal Explanations for Image Classifiers [17.736724129275043]
本稿では,実際の因果性理論に基づく計算説明に対する新しいブラックボックスアプローチを提案する。
これらの定義に基づいて近似的な説明を計算するためのアルゴリズムを提案する。
rexは最も効率的なツールであり、最小の説明を生成することを実証する。
論文 参考訳(メタデータ) (2024-11-13T18:52:42Z) - Interaction Asymmetry: A General Principle for Learning Composable Abstractions [27.749478197803256]
相互作用非対称性は、アンタングル化と合成一般化の両方を可能にすることを示す。
本稿では, フレキシブルトランスフォーマーをベースとしたVAEを用いて, デコーダの注意重みに対する新しい正規化器を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:33:26Z) - Abductive Commonsense Reasoning Exploiting Mutually Exclusive
Explanations [118.0818807474809]
帰納的推論は、イベントのもっともらしい説明を見つけることを目的としている。
自然言語処理における帰納的推論のための既存のアプローチは、しばしば監督のために手動で生成されたアノテーションに依存している。
この研究は、ある文脈に対して、説明のサブセットのみが正しいという事実を活用する、帰納的コモンセンス推論のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:35:10Z) - Evaluating the Robustness of Interpretability Methods through
Explanation Invariance and Equivariance [72.50214227616728]
解釈可能性法は、それらの説明が説明されたモデルを忠実に記述した場合にのみ有用である。
特定の対称性群の下で予測が不変であるニューラルネットワークを考える。
論文 参考訳(メタデータ) (2023-04-13T17:59:03Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Probing Classifiers are Unreliable for Concept Removal and Detection [18.25734277357466]
テキストデータに基づいてトレーニングされたニューラルネットワークモデルは、その表現において望ましくない言語的あるいはセンシティブな概念を符号化する。
近年の研究では、そのような不要な概念をモデル表現から除去するためのポストホックおよび逆法が提案されている。
これらの手法は非生産的であり、最悪の場合、すべてのタスク関連機能を破壊する可能性がある。
論文 参考訳(メタデータ) (2022-07-08T23:15:26Z) - The Manifold Hypothesis for Gradient-Based Explanations [55.01671263121624]
勾配に基づく説明アルゴリズムは知覚的に整合した説明を提供する。
特徴属性がデータの接する空間と一致しているほど、知覚的に一致している傾向にあることを示す。
説明アルゴリズムは、その説明をデータ多様体と整合させるよう積極的に努力すべきである。
論文 参考訳(メタデータ) (2022-06-15T08:49:24Z) - Don't Explain Noise: Robust Counterfactuals for Randomized Ensembles [50.81061839052459]
我々は確率論的問題として、堅牢な対実的説明の生成を定式化する。
アンサンブルモデルのロバスト性とベース学習者のロバスト性との関係を示す。
本手法は, 反実的説明から初期観測までの距離をわずかに増加させるだけで, 高いロバスト性を実現する。
論文 参考訳(メタデータ) (2022-05-27T17:28:54Z) - Explainers in the Wild: Making Surrogate Explainers Robust to
Distortions through Perception [77.34726150561087]
説明における歪みの影響を知覚距離を埋め込むことで評価する手法を提案する。
Imagenet-Cデータセットの画像の説明を生成し、サロゲート説明書の知覚距離を使用して歪んだ画像と参照画像のより一貫性のある説明を作成する方法を示しています。
論文 参考訳(メタデータ) (2021-02-22T12:38:53Z) - Towards the Unification and Robustness of Perturbation and Gradient
Based Explanations [23.41512277145231]
グラデーションに基づく手法であるSmoothGradと、摂動に基づく手法であるLIMEの変種という2つのポピュラーなポストホック解釈手法を分析します。
これら2つの方法で出力された説明に対する明確な閉じた形式表現を導出し、両者が期待通り同じ説明に収束することを示した。
我々は,合成データと実世界データの両方について広範な実験を行い,理論を実証的に検証した。
論文 参考訳(メタデータ) (2021-02-21T14:51:18Z) - On Generating Plausible Counterfactual and Semi-Factual Explanations for
Deep Learning [15.965337956587373]
PlausIble Exceptionality-based Contrastive Explanations (PIECE) は、テストイメージにおけるすべての例外的特徴を、対実クラスの観点から正規化するように修正する。
2つの制御された実験は、PIECEを文献上の他のものと比較し、PIECEはいくつかの尺度において最も妥当な反事実を生成するだけでなく、最良の半事実も生成することを示した。
論文 参考訳(メタデータ) (2020-09-10T14:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。