論文の概要: Adversarial attacks and defenses in explainable artificial intelligence:
A survey
- arxiv url: http://arxiv.org/abs/2306.06123v3
- Date: Tue, 13 Feb 2024 14:36:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 19:56:28.485190
- Title: Adversarial attacks and defenses in explainable artificial intelligence:
A survey
- Title(参考訳): 説明可能な人工知能における敵の攻撃と防御
- Authors: Hubert Baniecki and Przemyslaw Biecek
- Abstract要約: 敵機械学習(AdvML)の最近の進歩は、最先端の説明手法の限界と脆弱性を強調している。
本調査は、機械学習モデルの説明に対する敵攻撃に関する総合的な研究の概要を提供する。
- 参考スコア(独自算出の注目度): 11.541601343587917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainable artificial intelligence (XAI) methods are portrayed as a remedy
for debugging and trusting statistical and deep learning models, as well as
interpreting their predictions. However, recent advances in adversarial machine
learning (AdvML) highlight the limitations and vulnerabilities of
state-of-the-art explanation methods, putting their security and
trustworthiness into question. The possibility of manipulating, fooling or
fairwashing evidence of the model's reasoning has detrimental consequences when
applied in high-stakes decision-making and knowledge discovery. This survey
provides a comprehensive overview of research concerning adversarial attacks on
explanations of machine learning models, as well as fairness metrics. We
introduce a unified notation and taxonomy of methods facilitating a common
ground for researchers and practitioners from the intersecting research fields
of AdvML and XAI. We discuss how to defend against attacks and design robust
interpretation methods. We contribute a list of existing insecurities in XAI
and outline the emerging research directions in adversarial XAI (AdvXAI).
Future work should address improving explanation methods and evaluation
protocols to take into account the reported safety issues.
- Abstract(参考訳): 説明可能な人工知能(XAI)手法は、統計的および深層学習モデルのデバッグと信頼、および予測の解釈の方法として描かれる。
しかし、最近の敵機械学習(AdvML)の進歩は、最先端の説明手法の限界と脆弱性を強調し、彼らのセキュリティと信頼性に疑問を呈している。
モデル推論の操作、不正、公正な証拠を操作する可能性は、高い意思決定と知識発見に適用した場合に有害な結果をもたらす。
この調査は、機械学習モデルの説明に対する敵対的攻撃に関する研究と公平度メトリクスに関する総合的な概要を提供する。
本稿では,AdvML と XAI の交差する研究分野の研究者や実践者にとって共通基盤となる手法の統一的な表記法と分類法を紹介する。
攻撃から防御する方法とロバストな解釈方法の設計について論じる。
我々は,XAIにおける既存の不正確性のリストに貢献し,敵のXAI(AdvXAI)における新たな研究方向性を概説する。
今後の課題は、報告された安全問題を考慮した説明方法や評価プロトコルの改善である。
関連論文リスト
- A Survey of Defenses against AI-generated Visual Media: Detection, Disruption, and Authentication [15.879482578829489]
深層生成モデルは様々なコンピュータビジョンアプリケーションで顕著な性能を示した。
これらのモデルは、誤情報、偽造、著作権侵害などの悪意ある目的のために使用されることがある。
本稿では,AI生成したビジュアルメディアに対する防衛研究の体系的かつタイムリーなレビューを行う。
論文 参考訳(メタデータ) (2024-07-15T09:46:02Z) - Opening the Black-Box: A Systematic Review on Explainable AI in Remote Sensing [51.524108608250074]
ブラックボックス機械学習アプローチは、リモートセンシングにおける知識抽出における主要なモデリングパラダイムとなっている。
我々は、この分野における重要なトレンドを特定するための体系的なレビューを行い、新しい説明可能なAIアプローチに光を当てた。
また,課題と将来的な研究方向性について,より詳細な展望を述べる。
論文 参考訳(メタデータ) (2024-02-21T13:19:58Z) - X Hacking: The Threat of Misguided AutoML [2.3011205420794574]
本稿では、シャップ値などのXAIメトリクスに適用されたpハックの一種であるXハックの概念を紹介する。
自動機械学習パイプラインは、共通のベースラインに優れたパフォーマンスを維持しつつ、望ましい説明を生成する「防御可能な」モデルを探すためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2024-01-16T17:21:33Z) - A Brief Review of Explainable Artificial Intelligence in Healthcare [7.844015105790313]
XAIは、AIアプリケーションを構築するための技術と方法を指す。
モデル説明可能性と解釈可能性は、医療実践におけるAIモデルのデプロイを成功させる上で不可欠である。
論文 参考訳(メタデータ) (2023-04-04T05:41:57Z) - Adversarial Attacks and Defenses in Machine Learning-Powered Networks: A
Contemporary Survey [114.17568992164303]
機械学習とディープニューラルネットワークにおけるアドリアックと防御が注目されている。
本調査は、敵攻撃・防衛技術分野における最近の進歩を包括的に概観する。
検索ベース、意思決定ベース、ドロップベース、物理世界攻撃など、新たな攻撃方法も検討されている。
論文 参考訳(メタデータ) (2023-03-11T04:19:31Z) - A Survey on Poisoning Attacks Against Supervised Machine Learning [0.0]
本稿では,教師付き機械学習モデルに対する中毒攻撃について,最も代表的な論文について紹介する。
既存の文献の方法論と限界を要約し比較する。
本論文は, 教師付きモデルに対する毒性攻撃のさらなる活用と防止を目的として, 潜在的な改善と今後の方向性について述べる。
論文 参考訳(メタデータ) (2022-02-05T08:02:22Z) - A Review of Adversarial Attack and Defense for Classification Methods [78.50824774203495]
本稿では,敵対的事例の生成と保護に焦点をあてる。
この論文は、多くの統計学者が、この重要かつエキサイティングな分野において、敵の事例を生成・防御することを奨励するものである。
論文 参考訳(メタデータ) (2021-11-18T22:13:43Z) - When and How to Fool Explainable Models (and Humans) with Adversarial
Examples [1.439518478021091]
説明可能な機械学習モデルに対する敵攻撃の可能性と限界について検討する。
まず、逆例の概念を拡張して、説明可能な機械学習シナリオに適合する。
次に、説明可能なモデルに対して、逆例を生成できるかどうかを総合的に検討する枠組みを提案する。
論文 参考訳(メタデータ) (2021-07-05T11:20:55Z) - Counterfactual Explanations as Interventions in Latent Space [62.997667081978825]
反現実的な説明は、望ましい結果を達成するために変更が必要な機能のセットをエンドユーザに提供することを目的としています。
現在のアプローチでは、提案された説明を達成するために必要な行動の実現可能性を考慮することはめったにない。
本稿では,非現実的説明を生成する手法として,潜時空間における干渉としての対実的説明(CEILS)を提案する。
論文 参考訳(メタデータ) (2021-06-14T20:48:48Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Explainability in Deep Reinforcement Learning [68.8204255655161]
説明可能な強化学習(XRL)の実現に向けての最近の成果を概観する。
エージェントの振る舞いを正当化し、説明することが不可欠である重要な状況において、RLモデルのより良い説明可能性と解釈性は、まだブラックボックスと見なされているものの内部動作に関する科学的洞察を得るのに役立つ。
論文 参考訳(メタデータ) (2020-08-15T10:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。