論文の概要: Query Provenance Analysis: Efficient and Robust Defense against Query-based Black-box Attacks
- arxiv url: http://arxiv.org/abs/2405.20641v2
- Date: Wed, 16 Oct 2024 11:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:38:09.669727
- Title: Query Provenance Analysis: Efficient and Robust Defense against Query-based Black-box Attacks
- Title(参考訳): Query Provenance Analysis: クエリベースのブラックボックス攻撃に対する効率的かつロバストな防御
- Authors: Shaofei Li, Ziqi Zhang, Haomin Jia, Ding Li, Yao Guo, Xiangqun Chen,
- Abstract要約: 我々は、より堅牢で効率的なステートフルディフェンスモデル(SDM)のための新しいアプローチ、QPA(Query Provenance Analysis)を提案する。
QPAは、クエリ間の履歴関係をシーケンスの特徴としてカプセル化し、良性クエリシーケンスと逆性クエリシーケンスの基本的な違いをキャプチャする。
我々は,6つのクエリベースのブラックボックスアタックアルゴリズムを用いて,広く使用されている4つのデータセットに対して,2つのベースラインであるBlackLightとPIHAと比較した。
- 参考スコア(独自算出の注目度): 11.32992178606254
- License:
- Abstract: Query-based black-box attacks have emerged as a significant threat to machine learning systems, where adversaries can manipulate the input queries to generate adversarial examples that can cause misclassification of the model. To counter these attacks, researchers have proposed Stateful Defense Models (SDMs) for detecting adversarial query sequences and rejecting queries that are "similar" to the history queries. Existing state-of-the-art (SOTA) SDMs (e.g., BlackLight and PIHA) have shown great effectiveness in defending against these attacks. However, recent studies have shown that they are vulnerable to Oracle-guided Adaptive Rejection Sampling (OARS) attacks, which is a stronger adaptive attack strategy. It can be easily integrated with existing attack algorithms to evade the SDMs by generating queries with fine-tuned direction and step size of perturbations utilizing the leaked decision information from the SDMs. In this paper, we propose a novel approach, Query Provenance Analysis (QPA), for more robust and efficient SDMs. QPA encapsulates the historical relationships among queries as the sequence feature to capture the fundamental difference between benign and adversarial query sequences. To utilize the query provenance, we propose an efficient query provenance analysis algorithm with dynamic management. We evaluate QPA compared with two baselines, BlackLight and PIHA, on four widely used datasets with six query-based black-box attack algorithms. The results show that QPA outperforms the baselines in terms of defense effectiveness and efficiency on both non-adaptive and adaptive attacks. Specifically, QPA reduces the Attack Success Rate (ASR) of OARS to 4.08%, comparing to 77.63% and 87.72% for BlackLight and PIHA, respectively. Moreover, QPA also achieves 7.67x and 2.25x higher throughput than BlackLight and PIHA.
- Abstract(参考訳): クエリベースのブラックボックス攻撃は機械学習システムにとって重大な脅威として現れており、敵は入力クエリを操作して、モデルの誤分類を引き起こす可能性のある敵の例を生成することができる。
これらの攻撃に対抗するために、研究者は、敵のクエリシーケンスを検出し、履歴クエリと「類似」なクエリを拒否するステートフルディフェンスモデル(SDM)を提案した。
既存のSOTA(State-of-the-art)のSDM(例えば、BlackLightとPIHA)は、これらの攻撃に対する防御に大きな効果を示している。
しかし、最近の研究では、より強力な適応攻撃戦略であるOracleが指導するAdaptive Rejection Sampling (OARS)攻撃に弱いことが示されている。
既存の攻撃アルゴリズムと容易に統合でき、SDMから漏れた決定情報を利用して、微調整された方向と摂動のステップサイズでクエリを生成することで、SDMを回避することができる。
本稿では,より堅牢で効率的なSDMのための新しい手法であるQPA(Query Provenance Analysis)を提案する。
QPAは、クエリ間の履歴関係をシーケンスの特徴としてカプセル化し、良性クエリシーケンスと逆性クエリシーケンスの基本的な違いをキャプチャする。
そこで本研究では,動的管理を併用した効率的な問合せ前処理解析アルゴリズムを提案する。
我々は,6つのクエリベースのブラックボックスアタックアルゴリズムを用いて,広く使用されている4つのデータセットに対して,2つのベースラインであるBlackLightとPIHAと比較した。
その結果、QPAは、非適応攻撃と適応攻撃の両方において、防御効果と効率の両面において、ベースラインよりも優れていた。
特に、QPAはOARSのアタック成功率(ASR)を4.08%に下げ、それぞれブラックライトとPIHAの77.63%と87.72%に下げている。
さらに、QPAはBlackLightやPIHAよりも7.67倍と2.25倍高いスループットを実現している。
関連論文リスト
- Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks [12.061098193438022]
Retrieval Augmented Generation (RAG) は、分散知識を欠くモデルによく用いられる手法である。
本稿では,RAGシステムのエンドツーエンドの間接的なプロンプト操作に対する安全性について検討する。
論文 参考訳(メタデータ) (2024-08-09T12:26:05Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - BruSLeAttack: A Query-Efficient Score-Based Black-Box Sparse Adversarial Attack [22.408968332454062]
モデルクエリに対するスコアベースの応答を単純に観察することで、スパース対逆サンプルを生成するという、独特であまりよく理解されていない問題について検討する。
この問題に対するBruSLeAttackアルゴリズムを開発した。
私たちの作業は、モデル脆弱性の迅速な評価を促進し、デプロイされたシステムの安全性、セキュリティ、信頼性に対する警戒を高めます。
論文 参考訳(メタデータ) (2024-04-08T08:59:26Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Geometrically Adaptive Dictionary Attack on Face Recognition [23.712389625037442]
顔認証に対するクエリ効率の良いブラックボックス攻撃のための戦略を提案する。
中心となるアイデアは、UVテクスチャマップに逆方向の摂動を作り、それを画像の顔に投影することです。
LFWデータセットとCPLFWデータセットの実験において、圧倒的な性能改善を示す。
論文 参考訳(メタデータ) (2021-11-08T10:26:28Z) - A Strong Baseline for Query Efficient Attacks in a Black Box Setting [3.52359746858894]
そこで本研究では,テキスト分類とエンタテインメントタスクにおいて,妥当な敵の例を生成するためのクエリ効率のよい攻撃戦略を提案する。
我々の攻撃は、クエリ数を減らすために、注意機構と局所性に敏感なハッシュ(LSH)を併用する。
論文 参考訳(メタデータ) (2021-09-10T10:46:32Z) - Improving Query Efficiency of Black-box Adversarial Attack [75.71530208862319]
ニューラルプロセスに基づくブラックボックス対逆攻撃(NP-Attack)を提案する。
NP-Attackはブラックボックス設定でクエリ数を大幅に削減できる。
論文 参考訳(メタデータ) (2020-09-24T06:22:56Z) - AdvMind: Inferring Adversary Intent of Black-Box Attacks [66.19339307119232]
本稿では,ブラックボックス攻撃の敵意を頑健に推定する新たな評価モデルであるAdvMindを提案する。
平均的なAdvMindは、3回未満のクエリバッチを観察した後、75%以上の精度で敵の意図を検出する。
論文 参考訳(メタデータ) (2020-06-16T22:04:31Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。