論文の概要: Explainable Adversarial Attacks on Coarse-to-Fine Classifiers
- arxiv url: http://arxiv.org/abs/2501.10906v1
- Date: Sun, 19 Jan 2025 00:23:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:25:39.326854
- Title: Explainable Adversarial Attacks on Coarse-to-Fine Classifiers
- Title(参考訳): 粗大な分類器に対する説明可能な逆攻撃
- Authors: Akram Heidarizadeh, Connor Hatfield, Lorenzo Lazzarotto, HanQin Cai, George Atia,
- Abstract要約: 本稿では,多段階分類器に対するインスタンスベースの逆攻撃を提案する。
提案手法は, LRPを用いて, 粗い, きめ細かな分類に不可欠な重要な特徴を同定し, ターゲットにすることで, 説明可能な逆方向の摂動を生成する。
従来の攻撃とは異なり、本手法は誤分類を誘発するだけでなく、分類段階にわたってモデルの動作の解釈可能性を高める。
- 参考スコア(独自算出の注目度): 4.1608968552041565
- License:
- Abstract: Traditional adversarial attacks typically aim to alter the predicted labels of input images by generating perturbations that are imperceptible to the human eye. However, these approaches often lack explainability. Moreover, most existing work on adversarial attacks focuses on single-stage classifiers, but multi-stage classifiers are largely unexplored. In this paper, we introduce instance-based adversarial attacks for multi-stage classifiers, leveraging Layer-wise Relevance Propagation (LRP), which assigns relevance scores to pixels based on their influence on classification outcomes. Our approach generates explainable adversarial perturbations by utilizing LRP to identify and target key features critical for both coarse and fine-grained classifications. Unlike conventional attacks, our method not only induces misclassification but also enhances the interpretability of the model's behavior across classification stages, as demonstrated by experimental results.
- Abstract(参考訳): 従来の敵対的攻撃は、通常、人間の目には知覚できない摂動を発生させることで、入力画像の予測されたラベルを変更することを目的としている。
しかし、これらのアプローチは説明責任を欠くことが多い。
さらに、敵攻撃に関する既存の研究のほとんどは単段分類器に焦点を当てているが、多段分類器はほとんど探索されていない。
本稿では,多段階分類器に対するインスタンスベースの対向攻撃を導入し,分類結果への影響に基づいて,関連度スコアを画素に割り当てるレイヤワイド・レバレンス・プロパゲーション(LRP)を活用する。
提案手法は, LRPを用いて, 粗い, きめ細かな分類に不可欠な重要な特徴を同定し, ターゲットにすることで, 説明可能な逆方向の摂動を生成する。
従来の攻撃と異なり,本手法は誤分類を誘発するだけでなく,実験結果から示すように,分類段階にわたってモデルの動作の解釈可能性を高める。
関連論文リスト
- Adversarial Counterfactual Visual Explanations [0.7366405857677227]
本稿では,敵攻撃を意味論的に意味のある摂動に変換するエレガントな手法を提案する。
提案手法は,拡散確率モデルが高周波および分布外摂動を回避するための優れた正則化器であることを仮定する。
論文 参考訳(メタデータ) (2023-03-17T13:34:38Z) - Frequency-driven Imperceptible Adversarial Attack on Semantic Similarity [22.28011382580367]
敵対的攻撃研究は、慎重に構築された摂動に対する学習ベースの分類器の脆弱性を明らかにする。
特徴表現における意味的類似性を攻撃する新しいアルゴリズムを提案する。
本稿では,高周波成分の摂動を制限するために低周波制約を導入する。
論文 参考訳(メタデータ) (2022-03-10T04:46:51Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z) - Localized Uncertainty Attacks [9.36341602283533]
深層学習モデルに対する局所的不確実性攻撃を示す。
我々は、分類器が不確実な入力の領域のみを摂動することで、逆例を作成する。
$ell_p$ ballやパーターブ入力を無差別に検出する機能攻撃とは異なり、ターゲットとする変更は認識できない。
論文 参考訳(メタデータ) (2021-06-17T03:07:22Z) - Towards Defending against Adversarial Examples via Attack-Invariant
Features [147.85346057241605]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
敵の強靭性は、敵の例を利用して改善することができる。
目に見えない種類の敵の例に基づいて訓練されたモデルは、一般的に、目に見えない種類の敵の例にうまく一般化できない。
論文 参考訳(メタデータ) (2021-06-09T12:49:54Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Beyond cross-entropy: learning highly separable feature distributions
for robust and accurate classification [22.806324361016863]
本稿では, 対角的ロバスト性を提供する, ディープロバストなマルチクラス分類器を訓練するための新しい手法を提案する。
提案手法に基づく潜在空間の正則化は,優れた分類精度が得られることを示す。
論文 参考訳(メタデータ) (2020-10-29T11:15:17Z) - Towards Robust Fine-grained Recognition by Maximal Separation of
Discriminative Features [72.72840552588134]
本研究は, 粒度認識ネットワークにおけるクラス間の潜伏表現の近接性を, 敵攻撃の成功の鍵となる要因として同定する。
注意に基づく正規化機構を導入し、異なるクラスの識別潜在特徴を最大限に分離する。
論文 参考訳(メタデータ) (2020-06-10T18:34:45Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。