論文の概要: A Simple Yet Efficient Method for Adversarial Word-Substitute Attack
- arxiv url: http://arxiv.org/abs/2206.05015v1
- Date: Sat, 7 May 2022 14:20:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 01:16:40.471389
- Title: A Simple Yet Efficient Method for Adversarial Word-Substitute Attack
- Title(参考訳): 単語置換攻撃の簡易かつ効率的な手法
- Authors: Tianle Li, Yi Yang
- Abstract要約: 本稿では, 逆クエリの平均回数を3~30倍に削減する, 単純かつ効率的な手法を提案する。
この研究は、敵がより少ないコストで深いNLPモデルを騙すことができることを強調している。
- 参考スコア(独自算出の注目度): 30.445201832698192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: NLP researchers propose different word-substitute black-box attacks that can
fool text classification models. In such attack, an adversary keeps sending
crafted adversarial queries to the target model until it can successfully
achieve the intended outcome. State-of-the-art attack methods usually require
hundreds or thousands of queries to find one adversarial example. In this
paper, we study whether a sophisticated adversary can attack the system with
much less queries. We propose a simple yet efficient method that can reduce the
average number of adversarial queries by 3-30 times and maintain the attack
effectiveness. This research highlights that an adversary can fool a deep NLP
model with much less cost.
- Abstract(参考訳): NLP研究者は、テキスト分類モデルを騙すことができる異なる単語置換ブラックボックス攻撃を提案する。
このような攻撃では、敵は意図した結果を達成するまで、ターゲットモデルに工芸的な敵クエリを送信し続ける。
State-of-the-art攻撃法は通常、数百から数千のクエリを必要とする。
本稿では,高度な敵がより少ないクエリでシステムに攻撃できるかどうかを検討する。
本稿では,敵クエリの平均数を3~30倍に削減し,攻撃効率を向上する簡易かつ効率的な手法を提案する。
この研究は、敵がより少ないコストで深いNLPモデルを騙すことができることを強調している。
関連論文リスト
- AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - BruSLeAttack: A Query-Efficient Score-Based Black-Box Sparse Adversarial Attack [22.408968332454062]
モデルクエリに対するスコアベースの応答を単純に観察することで、スパース対逆サンプルを生成するという、独特であまりよく理解されていない問題について検討する。
この問題に対するBruSLeAttackアルゴリズムを開発した。
私たちの作業は、モデル脆弱性の迅速な評価を促進し、デプロイされたシステムの安全性、セキュリティ、信頼性に対する警戒を高めます。
論文 参考訳(メタデータ) (2024-04-08T08:59:26Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Among Us: Adversarially Robust Collaborative Perception by Consensus [50.73128191202585]
複数のロボットは、シーン(例えば物体)を個人よりも協調的に知覚することができる。
本稿では,未知の攻撃者に対して一般化可能な新しいサンプリングベース防衛戦略であるROBOSACを提案する。
自律運転シナリオにおける協調3次元物体検出の課題に対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-03-16T17:15:25Z) - Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。
近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。
攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。
BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:51:28Z) - Practical Evaluation of Adversarial Robustness via Adaptive Auto Attack [96.50202709922698]
実用的な評価手法は、便利な(パラメータフリー)、効率的な(イテレーションの少ない)、信頼性を持つべきである。
本稿では,パラメータフリーな適応オートアタック (A$3$) 評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-10T04:53:54Z) - Generating Natural Language Adversarial Examples through An Improved
Beam Search Algorithm [0.5735035463793008]
本稿では,新しい攻撃モデルを提案し,その攻撃成功率はベンチマーク攻撃法を超越している。
この手法は,4つのベンチマークデータセット上でWordCNN,LSTM,BiLSTM,BERTを攻撃することによって実証的に評価される。
IMDB上でBERTとBiLSTMを攻撃した場合、最先端の手法よりも100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2021-10-15T12:09:04Z) - A Strong Baseline for Query Efficient Attacks in a Black Box Setting [3.52359746858894]
そこで本研究では,テキスト分類とエンタテインメントタスクにおいて,妥当な敵の例を生成するためのクエリ効率のよい攻撃戦略を提案する。
我々の攻撃は、クエリ数を減らすために、注意機構と局所性に敏感なハッシュ(LSH)を併用する。
論文 参考訳(メタデータ) (2021-09-10T10:46:32Z) - Learning to Detect Adversarial Examples Based on Class Scores [0.8411385346896413]
我々は、すでに訓練済みの分類モデルのクラススコアに基づいて、敵の攻撃検出についてより詳しく検討する。
本稿では,SVM(Support Vector Machine)をクラススコアで学習し,逆例を検出することを提案する。
提案手法は,実装が容易でありながら,既存の手法と比較して検出率の向上を図っている。
論文 参考訳(メタデータ) (2021-07-09T13:29:54Z) - Practical No-box Adversarial Attacks against DNNs [31.808770437120536]
我々は、攻撃者がモデル情報やトレーニングセットにアクセスしたり、モデルに問い合わせたりできない、ノンボックスの逆例を調査する。
非常に小さなデータセットでトレーニングを行うための3つのメカニズムを提案し、プロトタイプの再構築が最も効果的であることを示す。
提案手法は, システムの平均予測精度を15.40%に低下させ, 事前学習したArcfaceモデルから, 敵のサンプルを転送する攻撃と同等にする。
論文 参考訳(メタデータ) (2020-12-04T11:10:03Z) - AdvMind: Inferring Adversary Intent of Black-Box Attacks [66.19339307119232]
本稿では,ブラックボックス攻撃の敵意を頑健に推定する新たな評価モデルであるAdvMindを提案する。
平均的なAdvMindは、3回未満のクエリバッチを観察した後、75%以上の精度で敵の意図を検出する。
論文 参考訳(メタデータ) (2020-06-16T22:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。