論文の概要: Fooling SHAP with Stealthily Biased Sampling
- arxiv url: http://arxiv.org/abs/2205.15419v1
- Date: Mon, 30 May 2022 20:33:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 14:55:28.153724
- Title: Fooling SHAP with Stealthily Biased Sampling
- Title(参考訳): 立体バイアスサンプリングによるSHAPの食品化
- Authors: Gabriel Laberge, Ulrich A\"ivodji and Satoshi Hara
- Abstract要約: SHAPの説明は、特定の入力におけるモデル予測と背景分布との差に最も寄与する特徴を特定することを目的としている。
近年の研究では、悪意のある敵によって操作され、任意に望まれる説明が得られることが示されている。
本稿では,モデルが無傷のまま残されるような攻撃の相補的なファミリを提案し,背景分布を推定するために使用されるデータポイントの密かに偏りのあるサンプリングを用いてSHAP説明を操作する。
- 参考スコア(独自算出の注目度): 7.476901945542385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SHAP explanations aim at identifying which features contribute the most to
the difference in model prediction at a specific input versus a background
distribution. Recent studies have shown that they can be manipulated by
malicious adversaries to produce arbitrary desired explanations. However,
existing attacks focus solely on altering the black-box model itself. In this
paper, we propose a complementary family of attacks that leave the model intact
and manipulate SHAP explanations using stealthily biased sampling of the data
points used to approximate expectations w.r.t the background distribution. In
the context of fairness audit, we show that our attack can reduce the
importance of a sensitive feature when explaining the difference in outcomes
between groups, while remaining undetected. These results highlight the
manipulability of SHAP explanations and encourage auditors to treat post-hoc
explanations with skepticism.
- Abstract(参考訳): SHAPの説明は、特定の入力におけるモデル予測と背景分布との差に最も寄与する特徴を特定することを目的としている。
近年の研究では、悪意のある敵によって操作され、任意の望ましい説明を生み出すことが示されている。
しかし、既存の攻撃はブラックボックスモデル自体の変更のみに焦点を当てている。
本稿では,背景分布を推定するために使用されるデータポイントのひっそりと偏りのあるサンプリングを用いて,モデルが無傷でシェープ説明を操作できる攻撃の相補的なファミリーを提案する。
フェアネス監査の文脈では、検出されていないままのグループ間の結果の違いを説明する際に、攻撃によって機密性の重要性が低下することを示す。
これらの結果は、SHAP説明の操作性を強調し、監査人に懐疑論によるポストホック説明の扱いを促す。
関連論文リスト
- Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - PASA: Attack Agnostic Unsupervised Adversarial Detection using Prediction & Attribution Sensitivity Analysis [2.5347892611213614]
分類のためのディープニューラルネットワークは、サンプル入力に対する小さな摂動が誤った予測につながる敵攻撃に対して脆弱である。
本研究では, モデル予測と特徴属性のこの特性の実用的手法を開発し, 対向サンプルを検出する。
本手法は,敵が防御機構を認識した場合でも,競争性能を示す。
論文 参考訳(メタデータ) (2024-04-12T21:22:21Z) - Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
因果表現の識別可能性に寄与する分布シフトのタイプを決定する。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文 参考訳(メタデータ) (2024-03-23T04:13:55Z) - Adversarial Counterfactual Visual Explanations [0.7366405857677227]
本稿では,敵攻撃を意味論的に意味のある摂動に変換するエレガントな手法を提案する。
提案手法は,拡散確率モデルが高周波および分布外摂動を回避するための優れた正則化器であることを仮定する。
論文 参考訳(メタデータ) (2023-03-17T13:34:38Z) - Extracting or Guessing? Improving Faithfulness of Event Temporal
Relation Extraction [87.04153383938969]
本研究では,TempRel抽出モデルの忠実度を2つの観点から改善する。
第1の視点は、文脈記述に基づいて真に抽出することである。
第2の視点は、適切な不確実性評価を提供することである。
論文 参考訳(メタデータ) (2022-10-10T19:53:13Z) - Deconfounding to Explanation Evaluation in Graph Neural Networks [136.73451468551656]
我々は、全グラフと部分グラフの間に分布シフトが存在し、分布外問題を引き起こすと論じる。
本稿では,モデル予測に対する説明文の因果効果を評価するために,Decon founded Subgraph Evaluation (DSE)を提案する。
論文 参考訳(メタデータ) (2022-01-21T18:05:00Z) - Debiased Explainable Pairwise Ranking from Implicit Feedback [0.3867363075280543]
BPR(Bayesian Personalized Ranking)に焦点をあてる。
BPRはアウトプットを説明しないブラックボックスモデルであり、ユーザのレコメンデーションに対する信頼を制限する。
本稿では,項目に基づく説明とともにレコメンデーションを生成する新しい説明可能な損失関数と,それに対応する行列分解モデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T17:19:37Z) - Adversarial Robustness through the Lens of Causality [105.51753064807014]
ディープニューラルネットワークの敵対的脆弱性は、機械学習において大きな注目を集めている。
我々は、因果関係を敵対的脆弱性の軽減に組み込むことを提案する。
我々の手法は、敵の脆弱性を緩和するために因果性を利用する最初の試みと見なすことができる。
論文 参考訳(メタデータ) (2021-06-11T06:55:02Z) - Better sampling in explanation methods can prevent dieselgate-like
deception [0.0]
予測モデルの解釈性は、それらのバイアスとエラーの原因を決定するために必要である。
IME、LIME、SHAPなどの一般的なテクニックでは、インスタンス機能の摂動を使用して個々の予測を説明します。
改良されたサンプリングによりLIMEとSHAPのロバスト性が向上し,以前に未試験のメソッドIMEがすでに最もロバストであることが示されている。
論文 参考訳(メタデータ) (2021-01-26T13:41:37Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z) - Towards Transparent and Explainable Attention Models [34.0557018891191]
まず,LSTMをベースとしたエンコーダにおける現在の注意機構が,モデルの予測を忠実に,あるいは妥当に説明できない理由を説明する。
本研究では,異なる時間ステップで学習した隠れ表現が多様であることを保証するため,多様性駆動型学習目標を持つLSTM細胞を改良した。
人的評価は,本モデルが学習した注意分布が,モデルの予測を妥当に説明できることを示唆している。
論文 参考訳(メタデータ) (2020-04-29T14:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。