論文の概要: HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack
on Text
- arxiv url: http://arxiv.org/abs/2402.01806v1
- Date: Fri, 2 Feb 2024 10:06:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 01:53:12.920055
- Title: HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack
on Text
- Title(参考訳): HQA-Attack: テキストにおける高品質なブラックボックスハードラベル攻撃を目指して
- Authors: Han Liu, Zhi Xu, Xiaotong Zhang, Feng Zhang, Fenglong Ma, Hongyang
Chen, Hong Yu and Xianchao Zhang
- Abstract要約: テキストに対するブラックボックスのハードラベルの敵攻撃は、実用的で困難な作業である。
そこで我々は,HQA-Attack というブラックボックス・ハードラベル攻撃シナリオの下で,高品質な敵の例を生成するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 40.58680960214544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Black-box hard-label adversarial attack on text is a practical and
challenging task, as the text data space is inherently discrete and
non-differentiable, and only the predicted label is accessible. Research on
this problem is still in the embryonic stage and only a few methods are
available. Nevertheless, existing methods rely on the complex heuristic
algorithm or unreliable gradient estimation strategy, which probably fall into
the local optimum and inevitably consume numerous queries, thus are difficult
to craft satisfactory adversarial examples with high semantic similarity and
low perturbation rate in a limited query budget. To alleviate above issues, we
propose a simple yet effective framework to generate high quality textual
adversarial examples under the black-box hard-label attack scenarios, named
HQA-Attack. Specifically, after initializing an adversarial example randomly,
HQA-attack first constantly substitutes original words back as many as
possible, thus shrinking the perturbation rate. Then it leverages the synonym
set of the remaining changed words to further optimize the adversarial example
with the direction which can improve the semantic similarity and satisfy the
adversarial condition simultaneously. In addition, during the optimizing
procedure, it searches a transition synonym word for each changed word, thus
avoiding traversing the whole synonym set and reducing the query number to some
extent. Extensive experimental results on five text classification datasets,
three natural language inference datasets and two real-world APIs have shown
that the proposed HQA-Attack method outperforms other strong baselines
significantly.
- Abstract(参考訳): テキストデータ空間は本質的に離散的で非微分可能であり、予測されたラベルのみがアクセス可能であるため、テキストに対するブラックボックスのハードラベル攻撃は実用的で困難なタスクである。
この問題の研究はまだ胚期にあり、いくつかの方法のみが利用可能である。
それにもかかわらず、既存の手法は複雑なヒューリスティックアルゴリズムや信頼性の低い勾配推定戦略に依存しており、これはおそらく局所的に最適で必然的に多くのクエリを消費するため、限られたクエリ予算で高い意味的類似性と低い摂動率で満足できる逆例を作るのが困難である。
上記の問題を緩和するため,我々はhqa攻撃と呼ばれるブラックボックスのハードラベル攻撃シナリオにおいて,高品質なテキスト対向例を生成するための,単純かつ効果的なフレームワークを提案する。
具体的には、敵の例をランダムに初期化した後、HQAアタックは最初、可能な限り元の単語を置き換え、摂動率を下げる。
そして、残りの変化した単語の同義集合を利用して、意味的類似性を改善し、同時に敵条件を満たす方向の逆例をさらに最適化する。
さらに、最適化手順中に、変更した単語毎に遷移同義語を検索することで、同義語セット全体のトラバースを回避し、クエリ数をある程度削減する。
5つのテキスト分類データセット、3つの自然言語推論データセット、および2つの実世界のAPIに関する大規模な実験結果から、提案手法が他の強力なベースラインよりも優れていることが示された。
関連論文リスト
- LimeAttack: Local Explainable Method for Textual Hard-Label Adversarial
Attack [3.410883081705873]
本稿では,LimeAttackという新しいハードラベル攻撃アルゴリズムを提案する。
LimeAttackは既存のハードラベル攻撃と比較して攻撃性能が良いことを示す。
LimeAttackによって作られた敵の例は高度に伝達可能であり、敵の訓練におけるモデルロバスト性を効果的に改善する。
論文 参考訳(メタデータ) (2023-08-01T06:30:37Z) - Block-Sparse Adversarial Attack to Fool Transformer-Based Text
Classifiers [49.50163349643615]
本稿では,変圧器を用いたテキスト分類器に対して,勾配に基づく逆攻撃を提案する。
実験結果から, 文の意味を抑えながら, GPT-2の精度を5%以下に抑えることができた。
論文 参考訳(メタデータ) (2022-03-11T14:37:41Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Generating Natural Language Attacks in a Hard Label Black Box Setting [3.52359746858894]
我々は、ハードラベルブラックボックス設定で自然言語処理モデルを攻撃する重要かつ困難なタスクを研究します。
本研究では, テキスト分類と関連タスクにおいて, 質の高い対比例を作成する意思決定に基づく攻撃戦略を提案する。
論文 参考訳(メタデータ) (2020-12-29T22:01:38Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。