論文の概要: Adversarial attacks and defenses in explainable artificial intelligence:
A survey
- arxiv url: http://arxiv.org/abs/2306.06123v3
- Date: Tue, 13 Feb 2024 14:36:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 19:56:28.485190
- Title: Adversarial attacks and defenses in explainable artificial intelligence:
A survey
- Title(参考訳): 説明可能な人工知能における敵の攻撃と防御
- Authors: Hubert Baniecki and Przemyslaw Biecek
- Abstract要約: 敵機械学習(AdvML)の最近の進歩は、最先端の説明手法の限界と脆弱性を強調している。
本調査は、機械学習モデルの説明に対する敵攻撃に関する総合的な研究の概要を提供する。
- 参考スコア(独自算出の注目度): 11.541601343587917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainable artificial intelligence (XAI) methods are portrayed as a remedy
for debugging and trusting statistical and deep learning models, as well as
interpreting their predictions. However, recent advances in adversarial machine
learning (AdvML) highlight the limitations and vulnerabilities of
state-of-the-art explanation methods, putting their security and
trustworthiness into question. The possibility of manipulating, fooling or
fairwashing evidence of the model's reasoning has detrimental consequences when
applied in high-stakes decision-making and knowledge discovery. This survey
provides a comprehensive overview of research concerning adversarial attacks on
explanations of machine learning models, as well as fairness metrics. We
introduce a unified notation and taxonomy of methods facilitating a common
ground for researchers and practitioners from the intersecting research fields
of AdvML and XAI. We discuss how to defend against attacks and design robust
interpretation methods. We contribute a list of existing insecurities in XAI
and outline the emerging research directions in adversarial XAI (AdvXAI).
Future work should address improving explanation methods and evaluation
protocols to take into account the reported safety issues.
- Abstract(参考訳): 説明可能な人工知能(XAI)手法は、統計的および深層学習モデルのデバッグと信頼、および予測の解釈の方法として描かれる。
しかし、最近の敵機械学習(AdvML)の進歩は、最先端の説明手法の限界と脆弱性を強調し、彼らのセキュリティと信頼性に疑問を呈している。
モデル推論の操作、不正、公正な証拠を操作する可能性は、高い意思決定と知識発見に適用した場合に有害な結果をもたらす。
この調査は、機械学習モデルの説明に対する敵対的攻撃に関する研究と公平度メトリクスに関する総合的な概要を提供する。
本稿では,AdvML と XAI の交差する研究分野の研究者や実践者にとって共通基盤となる手法の統一的な表記法と分類法を紹介する。
攻撃から防御する方法とロバストな解釈方法の設計について論じる。
我々は,XAIにおける既存の不正確性のリストに貢献し,敵のXAI(AdvXAI)における新たな研究方向性を概説する。
今後の課題は、報告された安全問題を考慮した説明方法や評価プロトコルの改善である。
関連論文リスト
- Computational Safety for Generative AI: A Signal Processing Perspective [65.268245109828]
計算安全性は、GenAIにおける安全性の定量的評価、定式化、研究を可能にする数学的枠組みである。
ジェイルブレイクによる悪意のあるプロンプトを検出するために, 感度解析と損失景観解析がいかに有効かを示す。
我々は、AIの安全性における信号処理の鍵となる研究課題、機会、そして重要な役割について論じる。
論文 参考訳(メタデータ) (2025-02-18T02:26:50Z) - Towards Robust and Accurate Stability Estimation of Local Surrogate Models in Text-based Explainable AI [9.31572645030282]
NLP領域における説明可能なAI(XAI)に対する敵攻撃では、生成された説明が操作される。
このXAI操作の中心は、ある説明が他の説明とどのように異なるかを計算するのに使用される類似度尺度である。
本研究は,テキストベースのランキングリストを対象とした類似度尺度について検討し,その使用適性について検討した。
論文 参考訳(メタデータ) (2025-01-03T17:44:57Z) - Explainable Artificial Intelligence (XAI) for Malware Analysis: A Survey of Techniques, Applications, and Open Challenges [0.0]
説明可能なAI(XAI)は、強力な検出能力を保ちながら、モデルの解釈可能性を向上させることで、このギャップに対処する。
我々は,既存のXAIフレームワーク,マルウェア分類・検出への応用,およびマルウェア検出モデルをより解釈可能なものにする上での課題について検討する。
この調査は、サイバーセキュリティにおけるMLのパフォーマンスと説明可能性のギャップを埋めようとしている研究者や実践者にとって、貴重なリソースとなる。
論文 参考訳(メタデータ) (2024-09-09T08:19:33Z) - Opening the Black-Box: A Systematic Review on Explainable AI in Remote Sensing [51.524108608250074]
ブラックボックス機械学習アプローチは、リモートセンシングにおける知識抽出における主要なモデリングパラダイムとなっている。
我々は、この分野における重要なトレンドを特定するための体系的なレビューを行い、新しい説明可能なAIアプローチに光を当てた。
また,課題と将来的な研究方向性について,より詳細な展望を述べる。
論文 参考訳(メタデータ) (2024-02-21T13:19:58Z) - X Hacking: The Threat of Misguided AutoML [2.3011205420794574]
本稿では、シャップ値などのXAIメトリクスに適用されたpハックの一種であるXハックの概念を紹介する。
自動機械学習パイプラインは、共通のベースラインに優れたパフォーマンスを維持しつつ、望ましい説明を生成する「防御可能な」モデルを探すためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2024-01-16T17:21:33Z) - A Brief Review of Explainable Artificial Intelligence in Healthcare [7.844015105790313]
XAIは、AIアプリケーションを構築するための技術と方法を指す。
モデル説明可能性と解釈可能性は、医療実践におけるAIモデルのデプロイを成功させる上で不可欠である。
論文 参考訳(メタデータ) (2023-04-04T05:41:57Z) - Adversarial Attacks and Defenses in Machine Learning-Powered Networks: A
Contemporary Survey [114.17568992164303]
機械学習とディープニューラルネットワークにおけるアドリアックと防御が注目されている。
本調査は、敵攻撃・防衛技術分野における最近の進歩を包括的に概観する。
検索ベース、意思決定ベース、ドロップベース、物理世界攻撃など、新たな攻撃方法も検討されている。
論文 参考訳(メタデータ) (2023-03-11T04:19:31Z) - A Survey on Poisoning Attacks Against Supervised Machine Learning [0.0]
本稿では,教師付き機械学習モデルに対する中毒攻撃について,最も代表的な論文について紹介する。
既存の文献の方法論と限界を要約し比較する。
本論文は, 教師付きモデルに対する毒性攻撃のさらなる活用と防止を目的として, 潜在的な改善と今後の方向性について述べる。
論文 参考訳(メタデータ) (2022-02-05T08:02:22Z) - Counterfactual Explanations as Interventions in Latent Space [62.997667081978825]
反現実的な説明は、望ましい結果を達成するために変更が必要な機能のセットをエンドユーザに提供することを目的としています。
現在のアプローチでは、提案された説明を達成するために必要な行動の実現可能性を考慮することはめったにない。
本稿では,非現実的説明を生成する手法として,潜時空間における干渉としての対実的説明(CEILS)を提案する。
論文 参考訳(メタデータ) (2021-06-14T20:48:48Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Explainability in Deep Reinforcement Learning [68.8204255655161]
説明可能な強化学習(XRL)の実現に向けての最近の成果を概観する。
エージェントの振る舞いを正当化し、説明することが不可欠である重要な状況において、RLモデルのより良い説明可能性と解釈性は、まだブラックボックスと見なされているものの内部動作に関する科学的洞察を得るのに役立つ。
論文 参考訳(メタデータ) (2020-08-15T10:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。