論文の概要: SemAttack: Natural Textual Attacks via Different Semantic Spaces
- arxiv url: http://arxiv.org/abs/2205.01287v1
- Date: Tue, 3 May 2022 03:44:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 00:03:48.700612
- Title: SemAttack: Natural Textual Attacks via Different Semantic Spaces
- Title(参考訳): SemAttack:異なるセマンティック空間による自然なテキスト攻撃
- Authors: Boxin Wang, Chejian Xu, Xiangyu Liu, Yu Cheng, Bo Li
- Abstract要約: 本研究では,異なる意味摂動関数を構築することで,自然な逆文を生成するための効率的なフレームワークを提案する。
SemAttackは、攻撃の成功率の高い異なる言語に対して、敵対的なテキストを生成することができることを示す。
我々の生成した敵対的テキストは自然であり、人間のパフォーマンスにはほとんど影響しない。
- 参考スコア(独自算出の注目度): 26.97034787803082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies show that pre-trained language models (LMs) are vulnerable to
textual adversarial attacks. However, existing attack methods either suffer
from low attack success rates or fail to search efficiently in the
exponentially large perturbation space. We propose an efficient and effective
framework SemAttack to generate natural adversarial text by constructing
different semantic perturbation functions. In particular, SemAttack optimizes
the generated perturbations constrained on generic semantic spaces, including
typo space, knowledge space (e.g., WordNet), contextualized semantic space
(e.g., the embedding space of BERT clusterings), or the combination of these
spaces. Thus, the generated adversarial texts are more semantically close to
the original inputs. Extensive experiments reveal that state-of-the-art (SOTA)
large-scale LMs (e.g., DeBERTa-v2) and defense strategies (e.g., FreeLB) are
still vulnerable to SemAttack. We further demonstrate that SemAttack is general
and able to generate natural adversarial texts for different languages (e.g.,
English and Chinese) with high attack success rates. Human evaluations also
confirm that our generated adversarial texts are natural and barely affect
human performance. Our code is publicly available at
https://github.com/AI-secure/SemAttack.
- Abstract(参考訳): 近年の研究では、事前学習言語モデル(LM)がテキストの敵対攻撃に弱いことが示されている。
しかし、既存の攻撃方法は攻撃の成功率が低いか、指数的に大きな摂動空間で効率的に探索できないかのいずれかである。
本研究では,異なる意味摂動関数を構築することで,自然な逆文を生成するための効率的かつ効果的なフレームワークSemAttackを提案する。
特にSemAttackは、入力空間、知識空間(WordNetなど)、文脈化された意味空間(BERTクラスタリングの埋め込み空間など)、あるいはこれらの空間の組み合わせを含む、ジェネリックな意味空間に制約された生成された摂動を最適化する。
したがって、生成した対数テキストは、元の入力にもっと意味的に近い。
大規模な実験により、最先端(SOTA)の大規模LM(例えばDeBERTa-v2)と防衛戦略(例えばFreeLB)がセムアタックに対して脆弱であることが判明した。
さらに,セマタックは汎用的であり,高い攻撃成功率で異なる言語(英語や中国語など)の自然敵文を生成することができることを示した。
人間の評価は、生成した敵対的テキストが自然であり、人間のパフォーマンスにはほとんど影響しないことも確認します。
私たちのコードはhttps://github.com/AI-secure/SemAttack.comで公開されています。
関連論文リスト
- Unveiling Vulnerability of Self-Attention [61.85150061213987]
事前訓練された言語モデル(PLM)は、マイナーな単語変更に対して脆弱であることが示されている。
本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。
構造的摂動によってSAを効果的に堅牢にする新しい平滑化技術である textitS-Attend を導入する。
論文 参考訳(メタデータ) (2024-02-26T10:31:45Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Textual Manifold-based Defense Against Natural Language Adversarial
Examples [10.140147080535222]
逆のテキストは、それらの埋め込みが自然の多様体から分岐する傾向がある。
テキスト埋め込みを近似した埋め込み多様体に投影する防衛機構であるテクスチュアル・マニフォールド・ベース・ディフェンス(TMD)を提案する。
本手法は, 清潔な精度を損なうことなく, 従来よりも一貫して, 著しく優れていた。
論文 参考訳(メタデータ) (2022-11-05T11:19:47Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - Towards Robustness Against Natural Language Word Substitutions [87.56898475512703]
単語置換に対するロバスト性は、意味論的に類似した単語を置換として、明確に定義され広く受け入れられる形式である。
従来の防衛方法は、$l$-ball または hyper-rectangle を用いてベクトル空間における単語置換をキャプチャする。
論文 参考訳(メタデータ) (2021-07-28T17:55:08Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z) - Intriguing Properties of Adversarial ML Attacks in the Problem Space [Extended Version] [18.3238686304247]
問題空間における敵ML回避攻撃の一般化を提案する。
セマンティクスやアーティファクトの観点から過去の制限を克服する,Androidマルウェアに対する新たな問題空間攻撃を提案する。
我々の結果は、"サービスとしてのアドバイサル・マルウェア"が現実的な脅威であることを示している。
論文 参考訳(メタデータ) (2019-11-05T23:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。