論文の概要: XSub: Explanation-Driven Adversarial Attack against Blackbox Classifiers via Feature Substitution
- arxiv url: http://arxiv.org/abs/2409.08919v1
- Date: Fri, 13 Sep 2024 15:33:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 15:59:55.442389
- Title: XSub: Explanation-Driven Adversarial Attack against Blackbox Classifiers via Feature Substitution
- Title(参考訳): XSub: 特徴置換によるブラックボックス分類に対する説明駆動逆攻撃
- Authors: Kiana Vu, Phung Lai, Truc Nguyen,
- Abstract要約: 我々は,特徴置換に基づくブラックボックス分類器に対する,説明駆動型対逆攻撃を開発した。
XSubは効果的でステルス性があり、コスト効率も高く、幅広いAIモデルにまたがる応用を可能にしている。
- 参考スコア(独自算出の注目度): 2.724141845301679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite its significant benefits in enhancing the transparency and trustworthiness of artificial intelligence (AI) systems, explainable AI (XAI) has yet to reach its full potential in real-world applications. One key challenge is that XAI can unintentionally provide adversaries with insights into black-box models, inevitably increasing their vulnerability to various attacks. In this paper, we develop a novel explanation-driven adversarial attack against black-box classifiers based on feature substitution, called XSub. The key idea of XSub is to strategically replace important features (identified via XAI) in the original sample with corresponding important features from a "golden sample" of a different label, thereby increasing the likelihood of the model misclassifying the perturbed sample. The degree of feature substitution is adjustable, allowing us to control how much of the original samples information is replaced. This flexibility effectively balances a trade-off between the attacks effectiveness and its stealthiness. XSub is also highly cost-effective in that the number of required queries to the prediction model and the explanation model in conducting the attack is in O(1). In addition, XSub can be easily extended to launch backdoor attacks in case the attacker has access to the models training data. Our evaluation demonstrates that XSub is not only effective and stealthy but also cost-effective, enabling its application across a wide range of AI models.
- Abstract(参考訳): 人工知能(AI)システムの透明性と信頼性を高めるという大きなメリットにもかかわらず、説明可能なAI(XAI)は、現実世界のアプリケーションにおいて、その潜在能力を最大限に発揮できていない。
重要な課題の1つは、XAIが必然的にブラックボックスモデルに対する洞察を敵に提供し、様々な攻撃に対する脆弱性を必然的に増大させることである。
本稿では,XSubと呼ばれる特徴置換に基づくブラックボックス分類器に対する,説明駆動型対逆攻撃を開発する。
XSubの鍵となる考え方は、元のサンプルにおいて重要な特徴(XAIで識別される)を異なるラベルの「金のサンプル」から対応する重要な特徴に置き換えることであり、それによって、乱れたサンプルを誤分類するモデルの可能性を高めることである。
機能置換の度合いは調整可能で、元のサンプル情報がどの程度交換されたかを制御することができます。
この柔軟性は、攻撃の有効性とステルスネスの間のトレードオフを効果的にバランスさせる。
また、XSubは、予測モデルに必要なクエリの数と、攻撃を行うための説明モデルがO(1)であるという点で非常に費用対効果が高い。
さらにXSubは、攻撃者がトレーニングデータにアクセス可能な場合にバックドアアタックを起動するように簡単に拡張できる。
我々の評価は、XSubが効果的でステルス性があるだけでなく、コスト効率も高いことを示し、幅広いAIモデルに応用できることを示した。
関連論文リスト
- Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - DifAttack: Query-Efficient Black-Box Attack via Disentangled Feature
Space [6.238161846680642]
本研究は,高攻撃成功率(ASR)と良好な一般化性を備えた,効率的なスコアベースブラックボックス攻撃について検討する。
本研究では,DifAttackと呼ばれる,DifAttackと呼ばれる不整形特徴空間に基づく新たな攻撃手法を設計する。
論文 参考訳(メタデータ) (2023-09-26T00:15:13Z) - AUTOLYCUS: Exploiting Explainable AI (XAI) for Model Extraction Attacks against Interpretable Models [1.8752655643513647]
XAIツールは、モデル抽出攻撃の脆弱性を増大させる可能性がある。
そこで本研究では,ブラックボックス設定下での解釈可能なモデルに対して,新たなリトレーニング(学習)に基づくモデル抽出攻撃フレームワークを提案する。
AUTOLYCUSは非常に効果的で、最先端の攻撃に比べてクエリが大幅に少ないことが示される。
論文 参考訳(メタデータ) (2023-02-04T13:23:39Z) - Adversarial Pixel Restoration as a Pretext Task for Transferable
Perturbations [54.1807206010136]
トランスファー可能な敵攻撃は、事前訓練された代理モデルと既知のラベル空間から敵を最適化し、未知のブラックボックスモデルを騙す。
本稿では,効果的なサロゲートモデルをスクラッチからトレーニングするための自己教師型代替手段として,Adversarial Pixel Restorationを提案する。
我々のトレーニングアプローチは、敵の目標を通したオーバーフィッティングを減らすmin-maxの目標に基づいています。
論文 参考訳(メタデータ) (2022-07-18T17:59:58Z) - How to Robustify Black-Box ML Models? A Zeroth-Order Optimization
Perspective [74.47093382436823]
入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法?
我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,それを復号化スムーシング(DS)のレンズを通して設計する。
我々は,ZO-AE-DSが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
論文 参考訳(メタデータ) (2022-03-27T03:23:32Z) - Query Efficient Decision Based Sparse Attacks Against Black-Box Deep
Learning Models [9.93052896330371]
本研究では,進化型アルゴリズムであるSparseEvoを開発し,畳み込み型深層ニューラルネットワークと視覚変換器の両方に対して評価する。
SparseEvoは、未ターゲットとターゲットの両方の攻撃に対して、最先端のスパース攻撃よりもはるかに少ないモデルクエリを必要とする。
重要なことは、クエリ効率のよいSparseEvoと意思決定ベースの攻撃は、一般的に、デプロイされたシステムの安全性に関する新しい疑問を提起する。
論文 参考訳(メタデータ) (2022-01-31T21:10:47Z) - RamBoAttack: A Robust Query Efficient Deep Neural Network Decision
Exploit [9.93052896330371]
本研究では,局所的な最小値の侵入を回避し,ノイズ勾配からのミスダイレクトを回避できる,堅牢なクエリ効率の高い攻撃法を開発した。
RamBoAttackは、敵クラスとターゲットクラスで利用可能な異なるサンプルインプットに対して、より堅牢である。
論文 参考訳(メタデータ) (2021-12-10T01:25:24Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Black-box Adversarial Attacks in Autonomous Vehicle Technology [4.215251065887861]
ブラックボックスの逆転攻撃は、自動運転車が他の車両や歩行者に衝突する重要なシーン要素の重大な誤分類を引き起こします。
転送ベース攻撃法におけるWhite-box Sourceの使用を克服するために,Modified Simple Black-box attack (M-SimBA) と呼ばれる新しいクエリベースの攻撃手法を提案する。
提案モデルは, 伝達型投影勾配降下(t-pgd), simbaといった既存モデルよりも収束時間, 混乱したクラス確率分布の平坦化, 真のクラスに対する信頼度の低い逆サンプルの生成に優れることを示した。
論文 参考訳(メタデータ) (2021-01-15T13:18:18Z) - Decision-based Universal Adversarial Attack [55.76371274622313]
ブラックボックス設定では、現在の普遍的敵攻撃法は代用モデルを用いて摂動を生成する。
効率的な決定に基づくユニバーサルアタック(DUAttack)を提案する。
DUAttackの有効性は、他の最先端攻撃との比較によって検証される。
論文 参考訳(メタデータ) (2020-09-15T12:49:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。