論文の概要: When and How to Fool Explainable Models (and Humans) with Adversarial
Examples
- arxiv url: http://arxiv.org/abs/2107.01943v2
- Date: Fri, 7 Jul 2023 11:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 16:22:23.054140
- Title: When and How to Fool Explainable Models (and Humans) with Adversarial
Examples
- Title(参考訳): 逆の例で説明可能なモデル(と人間)を騙す時と方法
- Authors: Jon Vadillo, Roberto Santana and Jose A. Lozano
- Abstract要約: 説明可能な機械学習モデルに対する敵攻撃の可能性と限界について検討する。
まず、逆例の概念を拡張して、説明可能な機械学習シナリオに適合する。
次に、説明可能なモデルに対して、逆例を生成できるかどうかを総合的に検討する枠組みを提案する。
- 参考スコア(独自算出の注目度): 1.439518478021091
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reliable deployment of machine learning models such as neural networks
continues to be challenging due to several limitations. Some of the main
shortcomings are the lack of interpretability and the lack of robustness
against adversarial examples or out-of-distribution inputs. In this exploratory
review, we explore the possibilities and limits of adversarial attacks for
explainable machine learning models. First, we extend the notion of adversarial
examples to fit in explainable machine learning scenarios, in which the inputs,
the output classifications and the explanations of the model's decisions are
assessed by humans. Next, we propose a comprehensive framework to study whether
(and how) adversarial examples can be generated for explainable models under
human assessment, introducing and illustrating novel attack paradigms. In
particular, our framework considers a wide range of relevant yet often ignored
factors such as the type of problem, the user expertise or the objective of the
explanations, in order to identify the attack strategies that should be adopted
in each scenario to successfully deceive the model (and the human). The
intention of these contributions is to serve as a basis for a more rigorous and
realistic study of adversarial examples in the field of explainable machine
learning.
- Abstract(参考訳): ニューラルネットワークのような機械学習モデルの信頼性の高いデプロイは、いくつかの制限のため、引き続き困難である。
主な欠点は、解釈可能性の欠如と、逆例や分散入力に対する堅牢性の欠如である。
この探索的レビューでは、説明可能な機械学習モデルに対する敵対的攻撃の可能性と限界について検討する。
まず,説明可能な機械学習シナリオに適合する逆例の概念を拡張し,入力,出力分類,モデル決定の説明を人間によって評価する。
次に,新たな攻撃パラダイムを導入,導入し,説明可能なモデルに対して,敵の例を生成できるかどうかを総合的に検討する枠組みを提案する。
特に,本フレームワークでは,問題の種類やユーザの専門知識,説明の目的など,広く関連するがしばしば無視される要因を検討し,各シナリオで採用すべき攻撃戦略を特定し,モデル(および人間)を欺く。
これらの貢献の意図は、説明可能な機械学習の分野における敵の例をより厳密で現実的な研究の基礎となることにある。
関連論文リスト
- A Survey on Transferability of Adversarial Examples across Deep Neural Networks [53.04734042366312]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性により、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃が可能となる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - On the Connections between Counterfactual Explanations and Adversarial
Examples [14.494463243702908]
本研究は, 対実的説明と敵対的事例との間の関係を定式化するための最初の試みである。
本分析は,いくつかの反事実的説明法と逆例生成法が等価であることを示す。
人工および実世界のデータセットを用いた広範囲な実験により理論的知見を実証的に検証した。
論文 参考訳(メタデータ) (2021-06-18T08:22:24Z) - Individual Explanations in Machine Learning Models: A Case Study on
Poverty Estimation [63.18666008322476]
機械学習の手法は、敏感な社会的文脈でますます適用されつつある。
本研究の主な目的は2つある。
まず、これらの課題を公開し、関連性のある新しい説明方法の使用にどのように影響するか。
次に、関連するアプリケーションドメインで説明メソッドを実装する際に直面するような課題を軽減する一連の戦略を提示します。
論文 参考訳(メタデータ) (2021-04-09T01:54:58Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z) - A Hierarchy of Limitations in Machine Learning [0.0]
本稿では,社会に応用された機械学習におけるモデルの概念的,手続き的,統計的制限の包括的,構造化された概要を論じる。
モデラー自身は、記述された階層を使って、可能な障害点を特定し、それらに対処する方法を考えることができます。
機械学習モデルの消費者は、機械学習を適用するかどうか、場所、方法に関する決定に直面したときに、何を問うべきかを知ることができる。
論文 参考訳(メタデータ) (2020-02-12T19:39:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。