Fugu-MT 論文翻訳(概要): Brittle interpretations: The Vulnerability of TCAV and Other Concept-based Explainability Tools to Adversarial Attack

論文の概要: Brittle interpretations: The Vulnerability of TCAV and Other Concept-based Explainability Tools to Adversarial Attack

arxiv url: http://arxiv.org/abs/2110.07120v1
Date: Thu, 14 Oct 2021 02:12:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-15 13:25:55.327430
Title: Brittle interpretations: The Vulnerability of TCAV and Other Concept-based Explainability Tools to Adversarial Attack
Title（参考訳）: 脆い解釈:TCAVおよび他の概念に基づく敵攻撃に対する説明可能性ツールの脆弱性
Authors: Davis Brown and Henry Kvinge
Abstract要約: モデル説明可能性の手法は、深層学習の公平性と健全性をテストするためにますます重要になっている。これらの手法は、解析対象のモデルと敵対的攻撃に対して同じ脆弱性を負う可能性があることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Methods for model explainability have become increasingly critical for testing the fairness and soundness of deep learning. A number of explainability techniques have been developed which use a set of examples to represent a human-interpretable concept in a model's activations. In this work we show that these explainability methods can suffer the same vulnerability to adversarial attacks as the models they are meant to analyze. We demonstrate this phenomenon on two well-known concept-based approaches to the explainability of deep learning models: TCAV and faceted feature visualization. We show that by carefully perturbing the examples of the concept that is being investigated, we can radically change the output of the interpretability method, e.g. showing that stripes are not an important factor in identifying images of a zebra. Our work highlights the fact that in safety-critical applications, there is need for security around not only the machine learning pipeline but also the model interpretation process.
Abstract（参考訳）: モデル説明可能性の手法は、深層学習の公平性と健全性をテストするためにますます重要になっている。モデルアクティベーションにおける人間解釈可能な概念を表現するために,一連の例を用いた説明可能性技術が開発されている。本研究では,これらの説明可能性手法が,解析対象のモデルと同じ脆弱性を被る可能性があることを示す。この現象を、ディープラーニングモデルの説明可能性に関する2つのよく知られた概念ベースアプローチ(tcatvとfaceted feature visualization)で実証する。研究されている概念の例を慎重に摂動することで,シマウマのイメージを識別する上で,ストライプが重要な要因ではないことを示すなど,解釈可能性手法のアウトプットを根本的に変えることができることを示す。私たちの研究は、安全クリティカルなアプリケーションでは、機械学習パイプラインだけでなく、モデル解釈プロセスにもセキュリティが必要であるという事実を強調しています。

関連論文リスト

A constraints-based approach to fully interpretable neural networks for detecting learner behaviors [0.6138671548064356]
本稿では,ニューラルネットワークに基づく行動検出モデルを構築するための新しいアプローチについて述べる。我々のモデルは、完全に解釈可能であり、つまり、説明のために抽出するパラメータは明確な解釈を持つ。このモデルを用いて,ゲーム・ザ・システム動作の検出,タスクの性能評価を行い,学習パターンを人間の専門家が特定したパターンと比較する。
論文参考訳（メタデータ） (2025-04-10T16:58:11Z)
Birds look like cars: Adversarial analysis of intrinsically interpretable deep learning [9.769695768744421]
設計による「本質的に」解釈可能なモデルの敵の操作に対する過度信頼と感受性に関連するリスクを強調した。潜伏プロトタイプの使用によってモデルの推論を養うことは、ディープニューラルネットワークの本質的非解釈可能性を示す。プロトタイプベースのネットワークの制限が報告されたことにより、信頼性と適用性に疑問が投げかけられた。
論文参考訳（メタデータ） (2025-03-11T17:24:33Z)
How to Probe: Simple Yet Effective Techniques for Improving Post-hoc Explanations [69.72654127617058]
ポストホック重要属性法は、ディープニューラルネットワーク(DNN)を"説明"するための一般的なツールであるこの研究において、我々はこの概念に挑戦する経験的証拠を提示する。トレーニング済みモデルの分類レイヤのトレーニング詳細が重要な役割を果たすことを示す。
論文参考訳（メタデータ） (2025-03-01T22:25:11Z)
On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは彼らの公正さ、信頼性、そして誤用の可能性について批判的な議論を呼んだ組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文参考訳（メタデータ） (2024-11-21T09:46:55Z)
Uncovering Unique Concept Vectors through Latent Space Decomposition [0.0]
概念に基づく説明は、特徴帰属推定よりも解釈可能な優れたアプローチとして現れてきた。本稿では,訓練中に深層モデルから学んだ概念を自動的に発見するポストホックな教師なし手法を提案する。実験の結果、我々の概念の大部分は、人間にとって容易に理解でき、一貫性を示し、目の前の課題に関連があることが判明した。
論文参考訳（メタデータ） (2023-07-13T17:21:54Z)
Explaining Explainability: Towards Deeper Actionable Insights into Deep Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文参考訳（メタデータ） (2023-06-14T23:24:01Z)
Interpretations Cannot Be Trusted: Stealthy and Effective Adversarial Perturbations against Interpretable Deep Learning [16.13790238416691]
この研究はAdvEdgeとAdvEdge$+$という2つの攻撃を導入し、ターゲットのディープラーニングモデルと組み合わせた解釈モデルの両方を欺いた。我々の分析は、ディープラーニングモデルとそのインタプリタを騙すという観点から、我々の攻撃の有効性を示している。
論文参考訳（メタデータ） (2022-11-29T04:45:10Z)
Robust Transferable Feature Extractors: Learning to Defend Pre-Trained Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文参考訳（メタデータ） (2022-09-14T21:09:34Z)
Explainability in Process Outcome Prediction: Guidelines to Obtain Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文参考訳（メタデータ） (2022-03-30T05:59:50Z)
When and How to Fool Explainable Models (and Humans) with Adversarial Examples [1.439518478021091]
説明可能な機械学習モデルに対する敵攻撃の可能性と限界について検討する。まず、逆例の概念を拡張して、説明可能な機械学習シナリオに適合する。次に、説明可能なモデルに対して、逆例を生成できるかどうかを総合的に検討する枠組みを提案する。
論文参考訳（メタデータ） (2021-07-05T11:20:55Z)
Robust Semantic Interpretability: Revisiting Concept Activation Vectors [0.0]
画像分類のための解釈可能性手法は、モデルが系統的に偏りがあるか、あるいは人間と同じ手掛かりに従うかを明らかにすることを試みる。提案するRobust Concept Activation Vectors (RCAV) は,個々のモデル予測やモデル全体の振る舞いに対する意味概念の影響を定量化する。
論文参考訳（メタデータ） (2021-04-06T20:14:59Z)
Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文参考訳（メタデータ） (2021-03-18T12:57:34Z)
Explainers in the Wild: Making Surrogate Explainers Robust to Distortions through Perception [77.34726150561087]
説明における歪みの影響を知覚距離を埋め込むことで評価する手法を提案する。 Imagenet-Cデータセットの画像の説明を生成し、サロゲート説明書の知覚距離を使用して歪んだ画像と参照画像のより一貫性のある説明を作成する方法を示しています。
論文参考訳（メタデータ） (2021-02-22T12:38:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。