論文の概要: The Anatomy of Adversarial Attacks: Concept-based XAI Dissection
- arxiv url: http://arxiv.org/abs/2403.16782v1
- Date: Mon, 25 Mar 2024 13:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 19:53:16.577952
- Title: The Anatomy of Adversarial Attacks: Concept-based XAI Dissection
- Title(参考訳): 対人攻撃の解剖:概念に基づくXAI解剖
- Authors: Georgii Mikriukov, Gesina Schwalbe, Franz Motzkus, Korinna Bade,
- Abstract要約: XAI技術を用いた畳み込みニューラルネットワーク(CNN)で学習した概念に対するAAの影響について検討する。
AAsは機能空間における概念構成の大幅な変更を誘発し、新しい概念を導入したり、既存の概念を変更したりする。
我々の発見は、より堅牢で解釈可能なディープラーニングモデルを開発するための道を開いた。
- 参考スコア(独自算出の注目度): 1.2916188356754918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial attacks (AAs) pose a significant threat to the reliability and robustness of deep neural networks. While the impact of these attacks on model predictions has been extensively studied, their effect on the learned representations and concepts within these models remains largely unexplored. In this work, we perform an in-depth analysis of the influence of AAs on the concepts learned by convolutional neural networks (CNNs) using eXplainable artificial intelligence (XAI) techniques. Through an extensive set of experiments across various network architectures and targeted AA techniques, we unveil several key findings. First, AAs induce substantial alterations in the concept composition within the feature space, introducing new concepts or modifying existing ones. Second, the adversarial perturbation itself can be linearly decomposed into a set of latent vector components, with a subset of these being responsible for the attack's success. Notably, we discover that these components are target-specific, i.e., are similar for a given target class throughout different AA techniques and starting classes. Our findings provide valuable insights into the nature of AAs and their impact on learned representations, paving the way for the development of more robust and interpretable deep learning models, as well as effective defenses against adversarial threats.
- Abstract(参考訳): 敵対的攻撃(AA)は、ディープニューラルネットワークの信頼性と堅牢性に重大な脅威をもたらす。
モデル予測に対するこれらの攻撃の影響は広く研究されているが、これらのモデル内の学習された表現や概念に対する影響は未解明のままである。
本研究では,eXplainable AI(XAI)技術を用いて,畳み込みニューラルネットワーク(CNN)が学習した概念に対するAAの影響を詳細に分析する。
様々なネットワークアーキテクチャとターゲットAA技術にまたがる広範な実験を通じて、我々はいくつかの重要な発見を公表した。
まず、AAsは機能空間における概念構成をかなり変更し、新しい概念を導入したり、既存の概念を変更したりする。
第二に、敵の摂動自体が線形に潜在ベクトル成分の集合に分解され、これらの一部が攻撃の成功の原因となる。
特に、これらのコンポーネントがターゲット固有であること、すなわち、異なるAA技術や開始クラスを通して、与えられたターゲットクラスに類似していることが分かる。
本研究は,より堅牢で解釈可能な深層学習モデルの開発への道を開くとともに,敵の脅威に対する効果的な防御を図り,AAの性質と学習表現への影響に関する貴重な知見を提供する。
関連論文リスト
- Edge-Only Universal Adversarial Attacks in Distributed Learning [49.546479320670464]
本研究では,攻撃者がモデルのエッジ部分のみにアクセスした場合に,ユニバーサルな敵攻撃を発生させる可能性について検討する。
提案手法は, エッジ側の重要な特徴を活用することで, 未知のクラウド部分において, 効果的な誤予測を誘導できることを示唆する。
ImageNetの結果は、未知のクラウド部分に対する強力な攻撃伝達性を示している。
論文 参考訳(メタデータ) (2024-11-15T11:06:24Z) - Investigating and unmasking feature-level vulnerabilities of CNNs to adversarial perturbations [3.4530027457862]
本研究では,畳み込みニューラルネットワーク(CNN)に対する対向摂動の影響について検討する。
本稿では,CNNの脆弱性を逆方向の摂動に対して調査するために,逆方向干渉フレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-31T08:14:44Z) - A Survey on Transferability of Adversarial Examples across Deep Neural Networks [53.04734042366312]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性により、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃が可能となる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - Adversarial Attacks and Defenses in Machine Learning-Powered Networks: A
Contemporary Survey [114.17568992164303]
機械学習とディープニューラルネットワークにおけるアドリアックと防御が注目されている。
本調査は、敵攻撃・防衛技術分野における最近の進歩を包括的に概観する。
検索ベース、意思決定ベース、ドロップベース、物理世界攻撃など、新たな攻撃方法も検討されている。
論文 参考訳(メタデータ) (2023-03-11T04:19:31Z) - Deviations in Representations Induced by Adversarial Attacks [0.0]
研究によると、ディープラーニングモデルは敵の攻撃に弱い。
この発見は研究の新たな方向性をもたらし、脆弱性のあるネットワークを攻撃して防御するためにアルゴリズムが開発された。
本稿では,敵攻撃によって引き起こされる表現の偏差を計測し,解析する手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T17:40:08Z) - A Closer Look at Evaluating the Bit-Flip Attack Against Deep Neural
Networks [0.0]
Bit-Flip Attack (BFA) は、メモリに格納されたパラメータをターゲットとして、モデルの性能を大幅に低下させることを目的としている。
この作業は、完全に接続されたアーキテクチャに対するBFAの影響を初めて示すものである。
論文 参考訳(メタデータ) (2022-09-28T17:04:39Z) - The Space of Adversarial Strategies [6.295859509997257]
機械学習モデルにおける最悪のケース動作を誘発するインプットである逆例は、過去10年間に広く研究されてきた。
最悪の場合(すなわち最適な)敵を特徴づける体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-09-09T20:53:11Z) - On the Properties of Adversarially-Trained CNNs [4.769747792846005]
敵のトレーニングは、現代のニューラルネットワークアーキテクチャにおける敵の例に対して堅牢性を強制する効果的な訓練パラダイムであることが証明された。
敵攻撃に対するロバスト性を実装するメカニズムに光を当て、敵訓練されたモデルの驚くべき特性について述べる。
論文 参考訳(メタデータ) (2022-03-17T11:11:52Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。