論文の概要: Why You Should Not Trust Interpretations in Machine Learning: Adversarial Attacks on Partial Dependence Plots
- arxiv url: http://arxiv.org/abs/2404.18702v2
- Date: Wed, 1 May 2024 13:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 10:59:25.986203
- Title: Why You Should Not Trust Interpretations in Machine Learning: Adversarial Attacks on Partial Dependence Plots
- Title(参考訳): 機械学習における解釈を信頼すべきでない理由 - 部分依存型に対する敵対的攻撃
- Authors: Xi Xin, Giles Hooker, Fei Huang,
- Abstract要約: 本稿では,機械学習タスクにおける置換に基づく解釈手法の脆弱性を明らかにするための逆フレームワークを提案する。
オリジナルのブラックボックスモデルを変更して、外挿領域のインスタンスに対する予測を操作する。
これは、オリジナルのモデルの予測の大部分を保存しながら、差別的行動を隠蔽できる偽のPDプロットを生成する。
- 参考スコア(独自算出の注目度): 25.68063899490945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The adoption of artificial intelligence (AI) across industries has led to the widespread use of complex black-box models and interpretation tools for decision making. This paper proposes an adversarial framework to uncover the vulnerability of permutation-based interpretation methods for machine learning tasks, with a particular focus on partial dependence (PD) plots. This adversarial framework modifies the original black box model to manipulate its predictions for instances in the extrapolation domain. As a result, it produces deceptive PD plots that can conceal discriminatory behaviors while preserving most of the original model's predictions. This framework can produce multiple fooled PD plots via a single model. By using real-world datasets including an auto insurance claims dataset and COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) dataset, our results show that it is possible to intentionally hide the discriminatory behavior of a predictor and make the black-box model appear neutral through interpretation tools like PD plots while retaining almost all the predictions of the original black-box model. Managerial insights for regulators and practitioners are provided based on the findings.
- Abstract(参考訳): 産業間で人工知能(AI)が採用され、複雑なブラックボックスモデルや解釈ツールが広く使われるようになった。
本稿では,機械学習タスクにおける置換に基づく解釈手法の脆弱性を明らかにするために,特に部分依存(PD)プロットに着目した逆方向のフレームワークを提案する。
この逆のフレームワークはオリジナルのブラックボックスモデルを修正し、外挿領域のインスタンスの予測を操作する。
結果として、オリジナルのモデルの予測の大部分を保存しながら、識別行動を隠すことができる偽のPDプロットを生成する。
このフレームワークは、1つのモデルで複数の不正なPDプロットを生成することができる。
自動保険請求データセットやCompAS(Correctional Offender Management Profiling for Alternative Sanctions)データセットを含む現実のデータセットを使用することで,予測者の識別行動を意図的に隠蔽し,PDプロットなどの解釈ツールを通じてブラックボックスモデルを中立にすることができる。
この結果に基づいて、規制当局や実務者に対する管理的洞察が提供される。
関連論文リスト
- SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - Explanation Method for Anomaly Detection on Mixed Numerical and
Categorical Spaces [0.9543943371833464]
EADMNC (混合数値およびカテゴリー空間における説明可能な異常検出)
これは、元のモデルで得られた予測に説明可能性を追加する。
本稿では,大規模な実世界のデータ,特にネットワーク侵入検出領域における実験結果について報告する。
論文 参考訳(メタデータ) (2022-09-09T08:20:13Z) - Instance Attack:An Explanation-based Vulnerability Analysis Framework
Against DNNs for Malware Detection [0.0]
本稿では,インスタンスベースの攻撃の概念を提案する。
我々の方式は解釈可能であり、ブラックボックス環境でも機能する。
提案手法はブラックボックス設定で動作し,その結果をドメイン知識で検証することができる。
論文 参考訳(メタデータ) (2022-09-06T12:41:20Z) - CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of
Adversarial Robustness of Vision Models [61.68061613161187]
本稿では,合成データセットの自動生成ツールであるCARLA-GeARについて述べる。
このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。
本稿では,CARLA-GeARで生成されたデータセットが,現実世界の敵防衛のベンチマークとして今後どのように利用されるかを示す。
論文 参考訳(メタデータ) (2022-06-09T09:17:38Z) - Combining Discrete Choice Models and Neural Networks through Embeddings:
Formulation, Interpretability and Performance [10.57079240576682]
本研究では、ニューラルネットワーク(ANN)を用いた理論とデータ駆動選択モデルを組み合わせた新しいアプローチを提案する。
特に、分類的または離散的説明変数を符号化するために、埋め込みと呼ばれる連続ベクトル表現を用いる。
我々のモデルは最先端の予測性能を提供し、既存のANNモデルよりも優れ、必要なネットワークパラメータの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-09-24T15:55:31Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - An Interpretable Probabilistic Approach for Demystifying Black-box
Predictive Models [2.0155921857858474]
批判的意思決定に洗練された機械学習モデルを使用することは、これらのモデルがしばしば「ブラックボックス」として適用されるという課題に直面している。
これにより、解釈可能な機械学習への関心が高まり、ポストホック解釈は複雑な学習モデルの解釈を生成するのに有用なメカニズムを示す。
我々は,ブラックボックス予測モデルのポストホック解釈を生成するため,ベイズネットワークの拡張フレームワークを基盤とした新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-21T09:04:04Z) - Estimating Generalization under Distribution Shifts via Domain-Invariant
Representations [75.74928159249225]
未知の真のターゲットラベルのプロキシとして、ドメイン不変の予測器のセットを使用します。
結果として生じるリスク見積の誤差は、プロキシモデルのターゲットリスクに依存する。
論文 参考訳(メタデータ) (2020-07-06T17:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。