論文の概要: Unfooling Perturbation-Based Post Hoc Explainers
- arxiv url: http://arxiv.org/abs/2205.14772v1
- Date: Sun, 29 May 2022 21:28:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 10:47:22.268588
- Title: Unfooling Perturbation-Based Post Hoc Explainers
- Title(参考訳): 非摂食型摂動型ポストホック説明器
- Authors: Zachariah Carmichael, Walter J Scheirer
- Abstract要約: 最近の研究は、摂動に基づくポストホックの説明を逆さまに騙すことが実証されている。
この発見は監査人、規制当局、その他のセンチネルに悪影響を及ぼす。
本研究では,この問題を厳格に定式化し,摂動型説明器に対する敵攻撃に対する防御策を考案する。
- 参考スコア(独自算出の注目度): 12.599362066650842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monumental advancements in artificial intelligence (AI) have lured the
interest of doctors, lenders, judges, and other professionals. While these
high-stakes decision-makers are optimistic about the technology, those familiar
with AI systems are wary about the lack of transparency of its decision-making
processes. Perturbation-based post hoc explainers offer a model agnostic means
of interpreting these systems while only requiring query-level access. However,
recent work demonstrates that these explainers can be fooled adversarially.
This discovery has adverse implications for auditors, regulators, and other
sentinels. With this in mind, several natural questions arise - how can we
audit these black box systems? And how can we ascertain that the auditee is
complying with the audit in good faith? In this work, we rigorously formalize
this problem and devise a defense against adversarial attacks on
perturbation-based explainers. We propose algorithms for the detection
(CAD-Detect) and defense (CAD-Defend) of these attacks, which are aided by our
novel conditional anomaly detection approach, KNN-CAD. We demonstrate that our
approach successfully detects whether a black box system adversarially conceals
its decision-making process and mitigates the adversarial attack on real-world
data for the prevalent explainers, LIME and SHAP.
- Abstract(参考訳): 人工知能(AI)の目覚ましい進歩は、医師、貸し手、裁判官、その他の専門家の関心を引き付けている。
これらの高度な意思決定者はテクノロジーについて楽観的であるが、AIシステムに詳しい人々は、意思決定プロセスの透明性の欠如に警戒している。
摂動に基づくポストホック説明器は、クエリレベルのアクセスのみを必要としながら、これらのシステムを解釈するモデルに依存しない手段を提供する。
しかし、近年の研究は、これらの説明者は逆さまに騙される可能性があることを実証している。
この発見は監査人、規制当局、その他のセンチネルに悪影響を及ぼす。
このことを念頭に置いて、いくつかの自然な疑問 - これらのブラックボックスシステムを監査するにはどうすればよいのか?
そして、監査人が誠実に監査に従っていることをどうやって確認できますか。
本研究では,この問題を厳格に定式化し,摂動型説明器に対する敵攻撃に対する防御を考案する。
我々は,これらの攻撃の検出(CAD-Detect)と防御(CAD-Defend)のためのアルゴリズムを提案する。
提案手法は,ブラックボックスが意思決定過程を逆行的に隠蔽するか否かを検知し,実世界のデータに対する敵攻撃を緩和するものである。
関連論文リスト
- Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - Counter Denial of Service for Next-Generation Networks within the Artificial Intelligence and Post-Quantum Era [2.156208381257605]
DoS攻撃はますます洗練され、容易に実行できるようになった。
最先端の体系化の取り組みには、孤立したDoS対策のような制限がある。
量子コンピュータの出現は、攻撃と防御の観点からのDoSのゲームチェンジャーである。
論文 参考訳(メタデータ) (2024-08-08T18:47:31Z) - Painting the black box white: experimental findings from applying XAI to
an ECG reading setting [0.13124513975412253]
シンボリックAIシステムからブラックボックス、サブシンボリック、統計システムへの移行は、説明可能なAI(XAI)への関心の急激な増加を動機付けている。
我々は,ユーザによる説明・XAIシステムに対する認識の認知次元に着目した。
論文 参考訳(メタデータ) (2022-10-27T07:47:50Z) - Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against
Fact-Verification Systems [80.3811072650087]
証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。
この攻撃は、主張のポストホックな修正に対しても堅牢である。
これらの攻撃は、インスペクタブルとヒューマン・イン・ザ・ループの使用シナリオに有害な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-09-07T13:39:24Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Explainable Intrusion Detection Systems (X-IDS): A Survey of Current
Methods, Challenges, and Opportunities [0.0]
侵入検知システム(IDS)は、大量のデータを高い予測精度で処理できるため、広く採用されている。
深層学習(DL)技術を用いて設計されたIDSは、ブラックボックスモデルとして扱われることが多く、予測の正当化は提供されない。
この調査では、IDSの最先端AI(XAI)とその現在の課題についてレビューし、これらの課題がX-IDSの設計にどのように当てはまるかを論じる。
論文 参考訳(メタデータ) (2022-07-13T14:31:46Z) - Inter-Domain Fusion for Enhanced Intrusion Detection in Power Systems:
An Evidence Theoretic and Meta-Heuristic Approach [0.0]
ICSネットワークにおけるIDSによる不正な警告は、経済的および運用上の重大な損害をもたらす可能性がある。
本研究は,CPS電力系統における誤警報の事前分布を伴わずに不確実性に対処し,誤警報を低減する手法を提案する。
論文 参考訳(メタデータ) (2021-11-20T00:05:39Z) - Inspect, Understand, Overcome: A Survey of Practical Methods for AI
Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。
近年,これらの安全対策を目的とした最先端技術動物園が出現している。
本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文 参考訳(メタデータ) (2021-04-29T09:54:54Z) - An Empirical Review of Adversarial Defenses [0.913755431537592]
このようなシステムの基礎を形成するディープニューラルネットワークは、敵対攻撃と呼ばれる特定のタイプの攻撃に非常に影響を受けやすい。
ハッカーは、最小限の計算でも、敵対的な例(他のクラスに属するイメージやデータポイント)を生成し、そのようなアルゴリズムの基礎を崩壊させることができます。
本稿では,DropoutとDenoising Autoencodersの2つの効果的な手法を示し,そのような攻撃がモデルを騙すのを防ぐことに成功したことを示す。
論文 参考訳(メタデータ) (2020-12-10T09:34:41Z) - A black-box adversarial attack for poisoning clustering [78.19784577498031]
本稿では,クラスタリングアルゴリズムのロバスト性をテストするために,ブラックボックス対逆攻撃法を提案する。
我々の攻撃は、SVM、ランダムフォレスト、ニューラルネットワークなどの教師付きアルゴリズムに対しても転送可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T18:19:31Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。