論文の概要: Unveiling Vulnerabilities in Interpretable Deep Learning Systems with
Query-Efficient Black-box Attacks
- arxiv url: http://arxiv.org/abs/2307.11906v1
- Date: Fri, 21 Jul 2023 21:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 19:08:37.544343
- Title: Unveiling Vulnerabilities in Interpretable Deep Learning Systems with
Query-Efficient Black-box Attacks
- Title(参考訳): 問合せ効率の良いブラックボックス攻撃による解釈可能な深層学習システムにおける脆弱性の解消
- Authors: Eldor Abdukhamidov, Mohammed Abuhamad, Simon S. Woo, Eric Chan-Tin,
Tamer Abuhmed
- Abstract要約: 解釈可能なディープラーニングシステム(IDLS)は、システムの透明性と説明性を高めるために設計されている。
本稿では,ターゲットモデルとその解釈モデルに関する事前知識を必要としない新規な微生物遺伝アルゴリズムによるIDLSに対するブラックボックス攻撃を提案する。
- 参考スコア(独自算出の注目度): 16.13790238416691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning has been rapidly employed in many applications revolutionizing
many industries, but it is known to be vulnerable to adversarial attacks. Such
attacks pose a serious threat to deep learning-based systems compromising their
integrity, reliability, and trust. Interpretable Deep Learning Systems (IDLSes)
are designed to make the system more transparent and explainable, but they are
also shown to be susceptible to attacks. In this work, we propose a novel
microbial genetic algorithm-based black-box attack against IDLSes that requires
no prior knowledge of the target model and its interpretation model. The
proposed attack is a query-efficient approach that combines transfer-based and
score-based methods, making it a powerful tool to unveil IDLS vulnerabilities.
Our experiments of the attack show high attack success rates using adversarial
examples with attribution maps that are highly similar to those of benign
samples which makes it difficult to detect even by human analysts. Our results
highlight the need for improved IDLS security to ensure their practical
reliability.
- Abstract(参考訳): ディープラーニングは多くの産業に革命をもたらす多くのアプリケーションで急速に採用されてきたが、敵の攻撃に弱いことが知られている。
このような攻撃は、その完全性、信頼性、信頼性を損なうディープラーニングベースのシステムにとって深刻な脅威となる。
解釈可能なディープラーニングシステム(IDLS)は、システムをより透明で説明しやすいように設計されているが、攻撃を受けやすいことも示されている。
本研究では,ターゲットモデルとその解釈モデルに関する事前知識を必要としない,新規な微生物遺伝アルゴリズムによるIDLSに対するブラックボックス攻撃を提案する。
提案された攻撃は、転送ベースとスコアベースのメソッドを組み合わせたクエリ効率のよいアプローチであり、IDLS脆弱性を公開する強力なツールである。
この攻撃実験は,良性サンプルと非常に類似した帰属マップを用いた敵の例を用いて高い攻撃成功率を示し,人間の分析による検出を困難にしている。
本結果は,IDLSセキュリティの改善の必要性を強調した。
関連論文リスト
- EaTVul: ChatGPT-based Evasion Attack Against Software Vulnerability Detection [19.885698402507145]
敵対的な例は、ディープニューラルネットワーク内の脆弱性を悪用することができる。
本研究は,攻撃成功率100%を達成できる敵対攻撃に対する深層学習モデルの感受性を示す。
論文 参考訳(メタデータ) (2024-07-27T09:04:54Z) - Leveraging Reinforcement Learning in Red Teaming for Advanced Ransomware Attack Simulations [7.361316528368866]
本稿では,ランサムウェア攻撃のシミュレーションに強化学習(RL)を利用する新しい手法を提案する。
実世界のネットワークを模倣するシミュレーション環境でRLエージェントを訓練することにより、効果的な攻撃戦略を迅速に学習することができる。
152ホストのサンプルネットワークの実験結果から,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2024-06-25T14:16:40Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Untargeted White-box Adversarial Attack with Heuristic Defence Methods
in Real-time Deep Learning based Network Intrusion Detection System [0.0]
Adversarial Machine Learning (AML)では、悪意のあるアクターが機械学習(ML)とディープラーニング(DL)モデルを騙して、誤った予測を生成する。
AMLは新たな研究領域であり、敵の攻撃の詳細な研究に欠かせないものとなっている。
我々は,FGSM(Fast Gradient Sign Method),JSMA(Jacobian Saliency Map Attack),PGD(Projected Gradient Descent),Cerini & Wagner(C&W)の4つの強力な攻撃手法を実装した。
論文 参考訳(メタデータ) (2023-10-05T06:32:56Z) - Downlink Power Allocation in Massive MIMO via Deep Learning: Adversarial
Attacks and Training [62.77129284830945]
本稿では,無線環境における回帰問題を考察し,敵攻撃がDLベースのアプローチを損なう可能性があることを示す。
また,攻撃に対するDLベースの無線システムの堅牢性が著しく向上することを示す。
論文 参考訳(メタデータ) (2022-06-14T04:55:11Z) - RobustSense: Defending Adversarial Attack for Secure Device-Free Human
Activity Recognition [37.387265457439476]
我々は、共通の敵攻撃を防御する新しい学習フレームワーク、RobustSenseを提案する。
本手法は,無線による人間行動認識と人物識別システムに有効である。
論文 参考訳(メタデータ) (2022-04-04T15:06:03Z) - Adversarial defense for automatic speaker verification by cascaded
self-supervised learning models [101.42920161993455]
ますます悪意のある攻撃者は、自動話者検証(ASV)システムで敵攻撃を仕掛けようとする。
本稿では,逐次的自己教師付き学習モデルに基づく標準的かつ攻撃非依存な手法を提案する。
実験により, 本手法は効果的な防御性能を実現し, 敵攻撃に対抗できることを示した。
論文 参考訳(メタデータ) (2021-02-14T01:56:43Z) - Increasing the Confidence of Deep Neural Networks by Coverage Analysis [71.57324258813674]
本稿では、異なる安全でない入力に対してモデルを強化するために、カバレッジパラダイムに基づく軽量な監視アーキテクチャを提案する。
実験結果から,提案手法は強力な対向例とアウト・オブ・ディストリビューション・インプットの両方を検出するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2021-01-28T16:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。