論文の概要: Brittle interpretations: The Vulnerability of TCAV and Other
Concept-based Explainability Tools to Adversarial Attack
- arxiv url: http://arxiv.org/abs/2110.07120v1
- Date: Thu, 14 Oct 2021 02:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 13:25:55.327430
- Title: Brittle interpretations: The Vulnerability of TCAV and Other
Concept-based Explainability Tools to Adversarial Attack
- Title(参考訳): 脆い解釈:TCAVおよび他の概念に基づく敵攻撃に対する説明可能性ツールの脆弱性
- Authors: Davis Brown and Henry Kvinge
- Abstract要約: モデル説明可能性の手法は、深層学習の公平性と健全性をテストするためにますます重要になっている。
これらの手法は、解析対象のモデルと敵対的攻撃に対して同じ脆弱性を負う可能性があることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Methods for model explainability have become increasingly critical for
testing the fairness and soundness of deep learning. A number of explainability
techniques have been developed which use a set of examples to represent a
human-interpretable concept in a model's activations. In this work we show that
these explainability methods can suffer the same vulnerability to adversarial
attacks as the models they are meant to analyze. We demonstrate this phenomenon
on two well-known concept-based approaches to the explainability of deep
learning models: TCAV and faceted feature visualization. We show that by
carefully perturbing the examples of the concept that is being investigated, we
can radically change the output of the interpretability method, e.g. showing
that stripes are not an important factor in identifying images of a zebra. Our
work highlights the fact that in safety-critical applications, there is need
for security around not only the machine learning pipeline but also the model
interpretation process.
- Abstract(参考訳): モデル説明可能性の手法は、深層学習の公平性と健全性をテストするためにますます重要になっている。
モデルアクティベーションにおける人間解釈可能な概念を表現するために,一連の例を用いた説明可能性技術が開発されている。
本研究では,これらの説明可能性手法が,解析対象のモデルと同じ脆弱性を被る可能性があることを示す。
この現象を、ディープラーニングモデルの説明可能性に関する2つのよく知られた概念ベースアプローチ(tcatvとfaceted feature visualization)で実証する。
研究されている概念の例を慎重に摂動することで,シマウマのイメージを識別する上で,ストライプが重要な要因ではないことを示すなど,解釈可能性手法のアウトプットを根本的に変えることができることを示す。
私たちの研究は、安全クリティカルなアプリケーションでは、機械学習パイプラインだけでなく、モデル解釈プロセスにもセキュリティが必要であるという事実を強調しています。
関連論文リスト
- On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Uncovering Unique Concept Vectors through Latent Space Decomposition [0.0]
概念に基づく説明は、特徴帰属推定よりも解釈可能な優れたアプローチとして現れてきた。
本稿では,訓練中に深層モデルから学んだ概念を自動的に発見するポストホックな教師なし手法を提案する。
実験の結果、我々の概念の大部分は、人間にとって容易に理解でき、一貫性を示し、目の前の課題に関連があることが判明した。
論文 参考訳(メタデータ) (2023-07-13T17:21:54Z) - Explaining Explainability: Towards Deeper Actionable Insights into Deep
Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。
そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T23:24:01Z) - Interpretations Cannot Be Trusted: Stealthy and Effective Adversarial
Perturbations against Interpretable Deep Learning [16.13790238416691]
この研究はAdvEdgeとAdvEdge$+$という2つの攻撃を導入し、ターゲットのディープラーニングモデルと組み合わせた解釈モデルの両方を欺いた。
我々の分析は、ディープラーニングモデルとそのインタプリタを騙すという観点から、我々の攻撃の有効性を示している。
論文 参考訳(メタデータ) (2022-11-29T04:45:10Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - Explainability in Process Outcome Prediction: Guidelines to Obtain
Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。
本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:59:50Z) - When and How to Fool Explainable Models (and Humans) with Adversarial
Examples [1.439518478021091]
説明可能な機械学習モデルに対する敵攻撃の可能性と限界について検討する。
まず、逆例の概念を拡張して、説明可能な機械学習シナリオに適合する。
次に、説明可能なモデルに対して、逆例を生成できるかどうかを総合的に検討する枠組みを提案する。
論文 参考訳(メタデータ) (2021-07-05T11:20:55Z) - Robust Semantic Interpretability: Revisiting Concept Activation Vectors [0.0]
画像分類のための解釈可能性手法は、モデルが系統的に偏りがあるか、あるいは人間と同じ手掛かりに従うかを明らかにすることを試みる。
提案するRobust Concept Activation Vectors (RCAV) は,個々のモデル予測やモデル全体の振る舞いに対する意味概念の影響を定量化する。
論文 参考訳(メタデータ) (2021-04-06T20:14:59Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Explainers in the Wild: Making Surrogate Explainers Robust to
Distortions through Perception [77.34726150561087]
説明における歪みの影響を知覚距離を埋め込むことで評価する手法を提案する。
Imagenet-Cデータセットの画像の説明を生成し、サロゲート説明書の知覚距離を使用して歪んだ画像と参照画像のより一貫性のある説明を作成する方法を示しています。
論文 参考訳(メタデータ) (2021-02-22T12:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。