Fugu-MT 論文翻訳(概要): Unveiling Vulnerabilities in Interpretable Deep Learning Systems with Query-Efficient Black-box Attacks

論文の概要: Unveiling Vulnerabilities in Interpretable Deep Learning Systems with Query-Efficient Black-box Attacks

arxiv url: http://arxiv.org/abs/2307.11906v1
Date: Fri, 21 Jul 2023 21:09:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-25 19:08:37.544343
Title: Unveiling Vulnerabilities in Interpretable Deep Learning Systems with Query-Efficient Black-box Attacks
Title（参考訳）: 問合せ効率の良いブラックボックス攻撃による解釈可能な深層学習システムにおける脆弱性の解消
Authors: Eldor Abdukhamidov, Mohammed Abuhamad, Simon S. Woo, Eric Chan-Tin, Tamer Abuhmed
Abstract要約: 解釈可能なディープラーニングシステム(IDLS)は、システムの透明性と説明性を高めるために設計されている。本稿では,ターゲットモデルとその解釈モデルに関する事前知識を必要としない新規な微生物遺伝アルゴリズムによるIDLSに対するブラックボックス攻撃を提案する。
参考スコア（独自算出の注目度）: 16.13790238416691
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning has been rapidly employed in many applications revolutionizing many industries, but it is known to be vulnerable to adversarial attacks. Such attacks pose a serious threat to deep learning-based systems compromising their integrity, reliability, and trust. Interpretable Deep Learning Systems (IDLSes) are designed to make the system more transparent and explainable, but they are also shown to be susceptible to attacks. In this work, we propose a novel microbial genetic algorithm-based black-box attack against IDLSes that requires no prior knowledge of the target model and its interpretation model. The proposed attack is a query-efficient approach that combines transfer-based and score-based methods, making it a powerful tool to unveil IDLS vulnerabilities. Our experiments of the attack show high attack success rates using adversarial examples with attribution maps that are highly similar to those of benign samples which makes it difficult to detect even by human analysts. Our results highlight the need for improved IDLS security to ensure their practical reliability.
Abstract（参考訳）: ディープラーニングは多くの産業に革命をもたらす多くのアプリケーションで急速に採用されてきたが、敵の攻撃に弱いことが知られている。このような攻撃は、その完全性、信頼性、信頼性を損なうディープラーニングベースのシステムにとって深刻な脅威となる。解釈可能なディープラーニングシステム(IDLS)は、システムをより透明で説明しやすいように設計されているが、攻撃を受けやすいことも示されている。本研究では,ターゲットモデルとその解釈モデルに関する事前知識を必要としない,新規な微生物遺伝アルゴリズムによるIDLSに対するブラックボックス攻撃を提案する。提案された攻撃は、転送ベースとスコアベースのメソッドを組み合わせたクエリ効率のよいアプローチであり、IDLS脆弱性を公開する強力なツールである。この攻撃実験は,良性サンプルと非常に類似した帰属マップを用いた敵の例を用いて高い攻撃成功率を示し,人間の分析による検出を困難にしている。本結果は,IDLSセキュリティの改善の必要性を強調した。

関連論文リスト

AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文参考訳（メタデータ） (2025-04-18T08:38:56Z)
Exposing the Ghost in the Transformer: Abnormal Detection for Large Language Models via Hidden State Forensics [5.384257830522198]
重要なアプリケーションにおける大規模言語モデル(LLM)は、重大な信頼性とセキュリティリスクを導入している。これらの脆弱性は悪意あるアクターによって武器化され、不正アクセス、広範囲にわたる誤報、システムの完全性を侵害した。本研究では,LLMの異常な挙動を隠蔽法で検出する手法を提案する。
論文参考訳（メタデータ） (2025-04-01T05:58:14Z)
How vulnerable is my policy? Adversarial attacks on modern behavior cloning policies [22.52780232632902]
本稿では,LfD(Learning from Demonstration)アルゴリズムに対する敵対的攻撃の包括的研究について述べる。我々は,これらの手法の脆弱性について,標的外,標的外,普遍的摂動に対する検討を行った。いくつかのロボット操作のシミュレーション実験により、現在の手法のほとんどは敵の摂動に非常に弱いことが判明した。
論文参考訳（メタデータ） (2025-02-06T01:17:39Z)
EaTVul: ChatGPT-based Evasion Attack Against Software Vulnerability Detection [19.885698402507145]
敵対的な例は、ディープニューラルネットワーク内の脆弱性を悪用することができる。本研究は,攻撃成功率100%を達成できる敵対攻撃に対する深層学習モデルの感受性を示す。
論文参考訳（メタデータ） (2024-07-27T09:04:54Z)
Leveraging Reinforcement Learning in Red Teaming for Advanced Ransomware Attack Simulations [7.361316528368866]
本稿では,ランサムウェア攻撃のシミュレーションに強化学習(RL)を利用する新しい手法を提案する。実世界のネットワークを模倣するシミュレーション環境でRLエージェントを訓練することにより、効果的な攻撃戦略を迅速に学習することができる。 152ホストのサンプルネットワークの実験結果から,提案手法の有効性が確認された。
論文参考訳（メタデータ） (2024-06-25T14:16:40Z)
Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文参考訳（メタデータ） (2024-05-28T19:16:17Z)
Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。 LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文参考訳（メタデータ） (2024-05-27T17:59:43Z)
Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。バックドア攻撃は訓練中にモデルに悪意ある行動を埋め込む我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文参考訳（メタデータ） (2024-03-24T18:33:15Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Hijacking Large Language Models via Adversarial In-Context Learning [10.416972293173993]
In-context Learning (ICL) は、ラベル付き例を事前条件付きプロンプトのデモ(デム)として活用することで、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。既存の攻撃は検出しやすく、ユーザーの入力にトリガーを必要とするか、ICLに対する特異性を欠いている。本研究は、ILCに対する新規なトランスファー可能なプロンプトインジェクション攻撃を導入し、LSMをハイジャックしてターゲット出力を生成したり、有害な応答を誘発する。
論文参考訳（メタデータ） (2023-11-16T15:01:48Z)
Untargeted White-box Adversarial Attack with Heuristic Defence Methods in Real-time Deep Learning based Network Intrusion Detection System [0.0]
Adversarial Machine Learning (AML)では、悪意のあるアクターが機械学習(ML)とディープラーニング(DL)モデルを騙して、誤った予測を生成する。 AMLは新たな研究領域であり、敵の攻撃の詳細な研究に欠かせないものとなっている。我々は,FGSM(Fast Gradient Sign Method),JSMA(Jacobian Saliency Map Attack),PGD(Projected Gradient Descent),Cerini & Wagner(C&W)の4つの強力な攻撃手法を実装した。
論文参考訳（メタデータ） (2023-10-05T06:32:56Z)
Downlink Power Allocation in Massive MIMO via Deep Learning: Adversarial Attacks and Training [62.77129284830945]
本稿では,無線環境における回帰問題を考察し,敵攻撃がDLベースのアプローチを損なう可能性があることを示す。また,攻撃に対するDLベースの無線システムの堅牢性が著しく向上することを示す。
論文参考訳（メタデータ） (2022-06-14T04:55:11Z)
RobustSense: Defending Adversarial Attack for Secure Device-Free Human Activity Recognition [37.387265457439476]
我々は、共通の敵攻撃を防御する新しい学習フレームワーク、RobustSenseを提案する。本手法は,無線による人間行動認識と人物識別システムに有効である。
論文参考訳（メタデータ） (2022-04-04T15:06:03Z)
Adversarial defense for automatic speaker verification by cascaded self-supervised learning models [101.42920161993455]
ますます悪意のある攻撃者は、自動話者検証(ASV)システムで敵攻撃を仕掛けようとする。本稿では,逐次的自己教師付き学習モデルに基づく標準的かつ攻撃非依存な手法を提案する。実験により, 本手法は効果的な防御性能を実現し, 敵攻撃に対抗できることを示した。
論文参考訳（メタデータ） (2021-02-14T01:56:43Z)
Increasing the Confidence of Deep Neural Networks by Coverage Analysis [71.57324258813674]
本稿では、異なる安全でない入力に対してモデルを強化するために、カバレッジパラダイムに基づく軽量な監視アーキテクチャを提案する。実験結果から,提案手法は強力な対向例とアウト・オブ・ディストリビューション・インプットの両方を検出するのに有効であることが示唆された。
論文参考訳（メタデータ） (2021-01-28T16:38:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。