論文の概要: Birds look like cars: Adversarial analysis of intrinsically interpretable deep learning
- arxiv url: http://arxiv.org/abs/2503.08636v1
- Date: Tue, 11 Mar 2025 17:24:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:04.059962
- Title: Birds look like cars: Adversarial analysis of intrinsically interpretable deep learning
- Title(参考訳): 鳥は車のように見える: 本質的に解釈可能な深層学習の逆解析
- Authors: Hubert Baniecki, Przemyslaw Biecek,
- Abstract要約: 設計による「本質的に」解釈可能なモデルの敵の操作に対する過度信頼と感受性に関連するリスクを強調した。
潜伏プロトタイプの使用によってモデルの推論を養うことは、ディープニューラルネットワークの本質的非解釈可能性を示す。
プロトタイプベースのネットワークの制限が報告されたことにより、信頼性と適用性に疑問が投げかけられた。
- 参考スコア(独自算出の注目度): 9.769695768744421
- License:
- Abstract: A common belief is that intrinsically interpretable deep learning models ensure a correct, intuitive understanding of their behavior and offer greater robustness against accidental errors or intentional manipulation. However, these beliefs have not been comprehensively verified, and growing evidence casts doubt on them. In this paper, we highlight the risks related to overreliance and susceptibility to adversarial manipulation of these so-called "intrinsically (aka inherently) interpretable" models by design. We introduce two strategies for adversarial analysis with prototype manipulation and backdoor attacks against prototype-based networks, and discuss how concept bottleneck models defend against these attacks. Fooling the model's reasoning by exploiting its use of latent prototypes manifests the inherent uninterpretability of deep neural networks, leading to a false sense of security reinforced by a visual confirmation bias. The reported limitations of prototype-based networks put their trustworthiness and applicability into question, motivating further work on the robustness and alignment of (deep) interpretable models.
- Abstract(参考訳): 共通の信念は、本質的に解釈可能なディープラーニングモデルは、彼らの振る舞いを正しく直感的に理解し、偶然の誤りや意図的な操作に対してより堅牢性を提供する、というものである。
しかし、これらの信念は包括的に検証されておらず、証拠の増大はそれらに疑問を呈している。
本稿では,このような「内在的(あるいは本質的に)解釈可能な」モデルの設計による敵の操作に対する過度な信頼と感受性に関するリスクを強調する。
本稿では,プロトタイプネットワークに対するバックドアアタックと,プロトタイプネットワークに対する逆解析のための2つの戦略を紹介し,これらの攻撃に対して,概念ボトルネックモデルがどのように防御するかについて議論する。
潜伏プロトタイプの使用によるモデルの推論の強化は、ディープニューラルネットワークの本質的非解釈性を顕在化させ、視覚的確証バイアスによって強化されたセキュリティの誤った感覚をもたらす。
プロトタイプベースのネットワークの制限が報告されたことにより、信頼性と適用性が疑問視され、(深い)解釈可能なモデルの堅牢性と整合性に関するさらなる研究が動機となった。
関連論文リスト
- Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - A Survey on Transferability of Adversarial Examples across Deep Neural Networks [53.04734042366312]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性により、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃が可能となる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - Interpretations Cannot Be Trusted: Stealthy and Effective Adversarial
Perturbations against Interpretable Deep Learning [16.13790238416691]
この研究はAdvEdgeとAdvEdge$+$という2つの攻撃を導入し、ターゲットのディープラーニングモデルと組み合わせた解釈モデルの両方を欺いた。
我々の分析は、ディープラーニングモデルとそのインタプリタを騙すという観点から、我々の攻撃の有効性を示している。
論文 参考訳(メタデータ) (2022-11-29T04:45:10Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - Brittle interpretations: The Vulnerability of TCAV and Other
Concept-based Explainability Tools to Adversarial Attack [0.0]
モデル説明可能性の手法は、深層学習の公平性と健全性をテストするためにますます重要になっている。
これらの手法は、解析対象のモデルと敵対的攻撃に対して同じ脆弱性を負う可能性があることを示す。
論文 参考訳(メタデータ) (2021-10-14T02:12:33Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z) - Detection Defense Against Adversarial Attacks with Saliency Map [7.736844355705379]
ニューラルネットワークは、人間の視覚にほとんど受容できない敵の例に弱いことがよく確認されている。
既存の防衛は、敵の攻撃に対するモデルの堅牢性を強化する傾向にある。
本稿では,新たな雑音と組み合わせた新しい手法を提案し,不整合戦略を用いて敵のサンプルを検出する。
論文 参考訳(メタデータ) (2020-09-06T13:57:17Z) - Proper Network Interpretability Helps Adversarial Robustness in
Classification [91.39031895064223]
本稿では,解釈の適切な測定を行うことで,予測回避攻撃が解釈の不一致を引き起こすのを防ぐことは困難であることを示す。
我々は,頑健な解釈の促進にのみ焦点をあてて,解釈可能性に配慮した防御手法を開発した。
その結果,我々の防衛力は,強靭な分類と頑健な解釈の両方を達成し,大規模な摂動攻撃に対する最先端の対人訓練方法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-26T01:31:31Z) - Adversarial Attacks and Defenses: An Interpretation Perspective [80.23908920686625]
敵の攻撃と防御に関する最近の研究、特に機械学習の解釈の観点から概観する。
モデル解釈(モデル解釈、英: model interpretation)または解釈可能な機械学習(英: interpretable machine learning)の目標は、モデルの動作メカニズムに対する人間の理解可能な用語を抽出することである。
それぞれの解釈に対して、敵の攻撃や防御にどのように使用できるかについて詳述する。
論文 参考訳(メタデータ) (2020-04-23T23:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。