論文の概要: The Anatomy of Adversarial Attacks: Concept-based XAI Dissection
- arxiv url: http://arxiv.org/abs/2403.16782v1
- Date: Mon, 25 Mar 2024 13:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 19:53:16.577952
- Title: The Anatomy of Adversarial Attacks: Concept-based XAI Dissection
- Title(参考訳): 対人攻撃の解剖:概念に基づくXAI解剖
- Authors: Georgii Mikriukov, Gesina Schwalbe, Franz Motzkus, Korinna Bade,
- Abstract要約: XAI技術を用いた畳み込みニューラルネットワーク(CNN)で学習した概念に対するAAの影響について検討する。
AAsは機能空間における概念構成の大幅な変更を誘発し、新しい概念を導入したり、既存の概念を変更したりする。
我々の発見は、より堅牢で解釈可能なディープラーニングモデルを開発するための道を開いた。
- 参考スコア(独自算出の注目度): 1.2916188356754918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial attacks (AAs) pose a significant threat to the reliability and robustness of deep neural networks. While the impact of these attacks on model predictions has been extensively studied, their effect on the learned representations and concepts within these models remains largely unexplored. In this work, we perform an in-depth analysis of the influence of AAs on the concepts learned by convolutional neural networks (CNNs) using eXplainable artificial intelligence (XAI) techniques. Through an extensive set of experiments across various network architectures and targeted AA techniques, we unveil several key findings. First, AAs induce substantial alterations in the concept composition within the feature space, introducing new concepts or modifying existing ones. Second, the adversarial perturbation itself can be linearly decomposed into a set of latent vector components, with a subset of these being responsible for the attack's success. Notably, we discover that these components are target-specific, i.e., are similar for a given target class throughout different AA techniques and starting classes. Our findings provide valuable insights into the nature of AAs and their impact on learned representations, paving the way for the development of more robust and interpretable deep learning models, as well as effective defenses against adversarial threats.
- Abstract(参考訳): 敵対的攻撃(AA)は、ディープニューラルネットワークの信頼性と堅牢性に重大な脅威をもたらす。
モデル予測に対するこれらの攻撃の影響は広く研究されているが、これらのモデル内の学習された表現や概念に対する影響は未解明のままである。
本研究では,eXplainable AI(XAI)技術を用いて,畳み込みニューラルネットワーク(CNN)が学習した概念に対するAAの影響を詳細に分析する。
様々なネットワークアーキテクチャとターゲットAA技術にまたがる広範な実験を通じて、我々はいくつかの重要な発見を公表した。
まず、AAsは機能空間における概念構成をかなり変更し、新しい概念を導入したり、既存の概念を変更したりする。
第二に、敵の摂動自体が線形に潜在ベクトル成分の集合に分解され、これらの一部が攻撃の成功の原因となる。
特に、これらのコンポーネントがターゲット固有であること、すなわち、異なるAA技術や開始クラスを通して、与えられたターゲットクラスに類似していることが分かる。
本研究は,より堅牢で解釈可能な深層学習モデルの開発への道を開くとともに,敵の脅威に対する効果的な防御を図り,AAの性質と学習表現への影響に関する貴重な知見を提供する。
関連論文リスト
- A Survey on Transferability of Adversarial Examples across Deep Neural Networks [53.04734042366312]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性により、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃が可能となる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - Adversarial Attacks and Defenses in Machine Learning-Powered Networks: A
Contemporary Survey [114.17568992164303]
機械学習とディープニューラルネットワークにおけるアドリアックと防御が注目されている。
本調査は、敵攻撃・防衛技術分野における最近の進歩を包括的に概観する。
検索ベース、意思決定ベース、ドロップベース、物理世界攻撃など、新たな攻撃方法も検討されている。
論文 参考訳(メタデータ) (2023-03-11T04:19:31Z) - Mitigating Adversarial Attacks in Deepfake Detection: An Exploration of
Perturbation and AI Techniques [1.0718756132502771]
敵の例は微妙な摂動で きれいな画像やビデオに 巧みに注入される
ディープフェイクは世論を操り、世論の評判を損なう強力なツールとして登場した。
この記事では、多面的な敵の例の世界を掘り下げ、ディープラーニングアルゴリズムを騙す能力の背後にある原則を解明する。
論文 参考訳(メタデータ) (2023-02-22T23:48:19Z) - Deviations in Representations Induced by Adversarial Attacks [0.0]
研究によると、ディープラーニングモデルは敵の攻撃に弱い。
この発見は研究の新たな方向性をもたらし、脆弱性のあるネットワークを攻撃して防御するためにアルゴリズムが開発された。
本稿では,敵攻撃によって引き起こされる表現の偏差を計測し,解析する手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T17:40:08Z) - A Closer Look at Evaluating the Bit-Flip Attack Against Deep Neural
Networks [0.0]
Bit-Flip Attack (BFA) は、メモリに格納されたパラメータをターゲットとして、モデルの性能を大幅に低下させることを目的としている。
この作業は、完全に接続されたアーキテクチャに対するBFAの影響を初めて示すものである。
論文 参考訳(メタデータ) (2022-09-28T17:04:39Z) - The Space of Adversarial Strategies [6.295859509997257]
機械学習モデルにおける最悪のケース動作を誘発するインプットである逆例は、過去10年間に広く研究されてきた。
最悪の場合(すなわち最適な)敵を特徴づける体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-09-09T20:53:11Z) - On the Properties of Adversarially-Trained CNNs [4.769747792846005]
敵のトレーニングは、現代のニューラルネットワークアーキテクチャにおける敵の例に対して堅牢性を強制する効果的な訓練パラダイムであることが証明された。
敵攻撃に対するロバスト性を実装するメカニズムに光を当て、敵訓練されたモデルの驚くべき特性について述べる。
論文 参考訳(メタデータ) (2022-03-17T11:11:52Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。
敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。
実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文 参考訳(メタデータ) (2021-05-18T17:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。