論文の概要: Adversarial Counterfactual Visual Explanations
- arxiv url: http://arxiv.org/abs/2303.09962v1
- Date: Fri, 17 Mar 2023 13:34:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 14:35:20.013851
- Title: Adversarial Counterfactual Visual Explanations
- Title(参考訳): 対物的視覚的説明法
- Authors: Guillaume Jeanneret and Lo\"ic Simon and Fr\'ed\'eric Jurie
- Abstract要約: 本稿では,敵攻撃を意味論的に意味のある摂動に変換するエレガントな手法を提案する。
提案手法は,拡散確率モデルが高周波および分布外摂動を回避するための優れた正則化器であることを仮定する。
- 参考スコア(独自算出の注目度): 0.7366405857677227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterfactual explanations and adversarial attacks have a related goal:
flipping output labels with minimal perturbations regardless of their
characteristics. Yet, adversarial attacks cannot be used directly in a
counterfactual explanation perspective, as such perturbations are perceived as
noise and not as actionable and understandable image modifications. Building on
the robust learning literature, this paper proposes an elegant method to turn
adversarial attacks into semantically meaningful perturbations, without
modifying the classifiers to explain. The proposed approach hypothesizes that
Denoising Diffusion Probabilistic Models are excellent regularizers for
avoiding high-frequency and out-of-distribution perturbations when generating
adversarial attacks. The paper's key idea is to build attacks through a
diffusion model to polish them. This allows studying the target model
regardless of its robustification level. Extensive experimentation shows the
advantages of our counterfactual explanation approach over current
State-of-the-Art in multiple testbeds.
- Abstract(参考訳): 反事実的説明と敵対的攻撃は、その特性に関係なく最小限の摂動で出力ラベルをひっくり返すという、関連する目標を持っている。
しかし、このような摂動はノイズとして認識され、動作可能で理解可能な画像修正ではないため、反現実的な説明の観点からは直接は敵攻撃は使用できない。
本稿では, 頑健な学習文献に基づいて, 対人攻撃を意味論的に意味のある摂動に変換するためのエレガントな手法を提案する。
提案手法は,拡散確率モデルが敵攻撃発生時の高周波および分布外摂動を回避するための優れた正則化器であることを仮定する。
論文の重要なアイデアは、拡散モデルを通じてそれらを磨く攻撃を構築することである。
これにより、ロバスト化レベルに関係なくターゲットモデルを研究することができる。
大規模実験により,複数のテストベッドにおける現状に対する反実的説明手法の利点が示された。
関連論文リスト
- Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - Classifier Guidance Enhances Diffusion-based Adversarial Purification by Preserving Predictive Information [75.36597470578724]
敵の浄化は、敵の攻撃からニューラルネットワークを守るための有望なアプローチの1つである。
分類器決定境界から遠ざかって, 清浄するgUided Purification (COUP)アルゴリズムを提案する。
実験結果から, COUPは強力な攻撃法でより優れた対向的堅牢性が得られることが示された。
論文 参考訳(メタデータ) (2024-08-12T02:48:00Z) - AFLOW: Developing Adversarial Examples under Extremely Noise-limited
Settings [7.828994881163805]
ディープニューラルネットワーク(DNN)は、敵の攻撃に対して脆弱である。
本稿では,AFLOW と呼ばれる新しい正規化フローベースのエンドツーエンドアタックフレームワークを提案する。
既存の手法と比較すると、AFLOWは認識不能性、画質、攻撃能力に優れていた。
論文 参考訳(メタデータ) (2023-10-15T10:54:07Z) - Adversarial Attacks Against Uncertainty Quantification [10.655660123083607]
この研究は、攻撃者が依然として不確実性推定を操作することに興味を持つ異なる敵シナリオに焦点を当てる。
特に、アウトプットが下流モジュールや人間のオペレータによって消費される場合、機械学習モデルの使用を損なうことが目標である。
論文 参考訳(メタデータ) (2023-09-19T12:54:09Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Localized Uncertainty Attacks [9.36341602283533]
深層学習モデルに対する局所的不確実性攻撃を示す。
我々は、分類器が不確実な入力の領域のみを摂動することで、逆例を作成する。
$ell_p$ ballやパーターブ入力を無差別に検出する機能攻撃とは異なり、ターゲットとする変更は認識できない。
論文 参考訳(メタデータ) (2021-06-17T03:07:22Z) - Towards Defending against Adversarial Examples via Attack-Invariant
Features [147.85346057241605]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
敵の強靭性は、敵の例を利用して改善することができる。
目に見えない種類の敵の例に基づいて訓練されたモデルは、一般的に、目に見えない種類の敵の例にうまく一般化できない。
論文 参考訳(メタデータ) (2021-06-09T12:49:54Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Luring of transferable adversarial perturbations in the black-box
paradigm [0.0]
我々は、ブラックボックス転送攻撃に対するモデルの堅牢性を改善するための新しいアプローチを提案する。
除去可能な追加ニューラルネットワークが対象モデルに含まれており、テクスチャリング効果を誘導するように設計されている。
提案手法は,対象モデルの予測にのみアクセス可能であり,ラベル付きデータセットを必要としない。
論文 参考訳(メタデータ) (2020-04-10T06:48:36Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。