論文の概要: Generating Natural Language Attacks in a Hard Label Black Box Setting
- arxiv url: http://arxiv.org/abs/2012.14956v1
- Date: Tue, 29 Dec 2020 22:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 20:37:51.216140
- Title: Generating Natural Language Attacks in a Hard Label Black Box Setting
- Title(参考訳): ハードラベルブラックボックス設定における自然言語攻撃の生成
- Authors: Rishabh Maheshwary, Saket Maheshwary and Vikram Pudi
- Abstract要約: 我々は、ハードラベルブラックボックス設定で自然言語処理モデルを攻撃する重要かつ困難なタスクを研究します。
本研究では, テキスト分類と関連タスクにおいて, 質の高い対比例を作成する意思決定に基づく攻撃戦略を提案する。
- 参考スコア(独自算出の注目度): 3.52359746858894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study an important and challenging task of attacking natural language
processing models in a hard label black box setting. We propose a
decision-based attack strategy that crafts high quality adversarial examples on
text classification and entailment tasks. Our proposed attack strategy
leverages population-based optimization algorithm to craft plausible and
semantically similar adversarial examples by observing only the top label
predicted by the target model. At each iteration, the optimization procedure
allow word replacements that maximizes the overall semantic similarity between
the original and the adversarial text. Further, our approach does not rely on
using substitute models or any kind of training data. We demonstrate the
efficacy of our proposed approach through extensive experimentation and
ablation studies on five state-of-the-art target models across seven benchmark
datasets. In comparison to attacks proposed in prior literature, we are able to
achieve a higher success rate with lower word perturbation percentage that too
in a highly restricted setting.
- Abstract(参考訳): ハードラベルブラックボックス設定において,自然言語処理モデルを攻撃するための重要かつ困難な課題について検討する。
そこで本研究では,テキスト分類と包摂作業において,高品質な敵の例を提示する意思決定型攻撃戦略を提案する。
提案手法は,ターゲットモデルによって予測される最上位ラベルのみを観測することにより,有理かつ意味的に類似した敵例を作成するために,人口ベース最適化アルゴリズムを利用する。
各イテレーションにおいて、最適化手順は、原文と逆文の全体的な意味的類似性を最大化する単語置換を可能にする。
さらに,本手法は代替モデルや訓練データの利用には依存していない。
7つのベンチマークデータセットにまたがる5つの最先端ターゲットモデルに関する広範な実験とアブレーション実験を通じて,提案手法の有効性を実証する。
先行文献で提示された攻撃と比較して,単語摂動率の低さで高い成功率を,非常に制限された設定で達成することができる。
関連論文リスト
- Preference Poisoning Attacks on Reward Model Learning [49.806139447922526]
攻撃者は、目標とする結果の促進または復号化を目標として、好み比較の小さなサブセットを反転させることができることを示す。
最高の攻撃は多くの場合、非常に成功しており、最も極端な場合、100%の成功率を達成することができ、データのわずか0.3%が毒殺されている。
我々はまた、他の種類の毒殺攻撃に対する最先端の防御策が、少なくとも我々の環境では有効性に制限されていることも示している。
論文 参考訳(メタデータ) (2024-02-02T21:45:24Z) - HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack
on Text [40.58680960214544]
テキストに対するブラックボックスのハードラベルの敵攻撃は、実用的で困難な作業である。
そこで我々は,HQA-Attack というブラックボックス・ハードラベル攻撃シナリオの下で,高品質な敵の例を生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T10:06:43Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - LimeAttack: Local Explainable Method for Textual Hard-Label Adversarial
Attack [3.410883081705873]
本稿では,LimeAttackという新しいハードラベル攻撃アルゴリズムを提案する。
LimeAttackは既存のハードラベル攻撃と比較して攻撃性能が良いことを示す。
LimeAttackによって作られた敵の例は高度に伝達可能であり、敵の訓練におけるモデルロバスト性を効果的に改善する。
論文 参考訳(メタデータ) (2023-08-01T06:30:37Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - Boosting Transferability of Targeted Adversarial Examples via
Hierarchical Generative Networks [56.96241557830253]
転送ベースの敵攻撃はブラックボックス設定におけるモデルロバスト性を効果的に評価することができる。
本稿では,異なるクラスを対象にした対角的例を生成する条件生成攻撃モデルを提案する。
提案手法は,既存の手法と比較して,標的となるブラックボックス攻撃の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-05T06:17:47Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - A Context Aware Approach for Generating Natural Language Attacks [3.52359746858894]
本研究では,意味的に類似した敵対例をテキスト分類と関連タスクに組み込む攻撃戦略を提案する。
提案攻撃は,元の単語とその周囲の文脈の両方の情報を考慮し,候補語を見つける。
論文 参考訳(メタデータ) (2020-12-24T17:24:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。