論文の概要: Semantic-Preserving Adversarial Text Attacks
- arxiv url: http://arxiv.org/abs/2108.10015v1
- Date: Mon, 23 Aug 2021 09:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 16:05:22.770632
- Title: Semantic-Preserving Adversarial Text Attacks
- Title(参考訳): 意味保存型逆テキスト攻撃
- Authors: Xinghao Yang, Weifeng Liu, James Bailey, Tianqing Zhu, Dacheng Tao,
Wei Liu
- Abstract要約: 深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
- 参考スコア(独自算出の注目度): 85.32186121859321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) are known to be vulnerable to adversarial images,
while their robustness in text classification is rarely studied. Several lines
of text attack methods have been proposed in the literature, including
character-level, word-level, and sentence-level attacks. However, it is still a
challenge to minimize the number of word changes necessary to induce
misclassification, while simultaneously ensuring lexical correctness, syntactic
soundness, and semantic similarity. In this paper, we propose a Bigram and
Unigram based adaptive Semantic Preservation Optimization (BU-SPO) method to
examine the vulnerability of deep models. Our method has four major merits.
Firstly, we propose to attack text documents not only at the unigram word level
but also at the bigram level which better keeps semantics and avoids producing
meaningless outputs. Secondly, we propose a hybrid method to replace the input
words with options among both their synonyms candidates and sememe candidates,
which greatly enriches the potential substitutions compared to only using
synonyms. Thirdly, we design an optimization algorithm, i.e., Semantic
Preservation Optimization (SPO), to determine the priority of word
replacements, aiming to reduce the modification cost. Finally, we further
improve the SPO with a semantic Filter (named SPOF) to find the adversarial
example with the highest semantic similarity. We evaluate the effectiveness of
our BU-SPO and BU-SPOF on IMDB, AG's News, and Yahoo! Answers text datasets by
attacking four popular DNNs models. Results show that our methods achieve the
highest attack success rates and semantics rates by changing the smallest
number of words compared with existing methods.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、敵対的な画像に対して脆弱であることが知られているが、テキスト分類における堅牢性はほとんど研究されていない。
文字レベル、単語レベル、文レベル攻撃など、いくつかのテキスト攻撃手法が文献で提案されている。
しかし, 語彙的正しさ, 構文的健全性, 意味的類似性を同時に確保しつつ, 誤分類を誘発するために必要な単語変化の最小化は依然として課題である。
本稿では,ビグラムとユニグラムに基づく適応的セマンティック保存最適化法(BU-SPO)を提案する。
我々の方法には4つの大きなメリットがある。
まず,テキスト文書をユニグラム語レベルでだけでなく,bigramレベルでも攻撃し,意味を保ち,意味のない出力を発生させないことを提案する。
次に,同義語候補とセメム候補の両方において,入力語を選択肢に置き換えるハイブリッド手法を提案する。
第3に,単語置換の優先度を決定するための最適化アルゴリズム,すなわちセマンティック保存最適化(SPO)を設計し,変更コストの低減を図る。
最後に,セマンティックフィルタ(sof)を用いてspoをさらに改良し,最も意味的類似度の高い逆例を探索する。
IMDB, AG's News, Yahoo!におけるBU-SPOとBU-SPOFの有効性を評価する。
一般的な4つのDNNモデルを攻撃することで、テキストデータセットに回答する。
その結果,本手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を達成することができた。
関連論文リスト
- HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack
on Text [40.58680960214544]
テキストに対するブラックボックスのハードラベルの敵攻撃は、実用的で困難な作業である。
そこで我々は,HQA-Attack というブラックボックス・ハードラベル攻撃シナリオの下で,高品質な敵の例を生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T10:06:43Z) - Single Word Change is All You Need: Designing Attacks and Defenses for
Text Classifiers [12.167426402230229]
既存の手法によって生成された敵例のかなりの部分は、1つの単語だけを変える。
このシングルワード摂動脆弱性は、分類器の重大な弱点である。
本研究では,単一単語の摂動脆弱性を利用したSP-Attackを提案する。
また、学習にデータ拡張を適用してrhoを改善することを目的としたSP-Defenseを提案する。
論文 参考訳(メタデータ) (2024-01-30T17:30:44Z) - SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text Generation [72.10931780019297]
既存の透かしアルゴリズムはトークンレベルの設計のため、パラフレーズ攻撃に弱い。
局所性に敏感なハッシュ(LSH)に基づく頑健な文レベルのセマンティック透かしアルゴリズムSemStampを提案する。
実験結果から,本アルゴリズムは従来手法に比べて,従来手法よりも頑健であるだけでなく,生成品質の維持にも有効であることが示唆された。
論文 参考訳(メタデータ) (2023-10-06T03:33:42Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Adversarial Semantic Collisions [129.55896108684433]
意味的衝突:意味論的に無関係だが、NLPモデルにより類似と判断されるテキストについて検討する。
我々は,意味的衝突を生成するための勾配に基づくアプローチを開発した。
パープレキシティに基づくフィルタリングを避けるために,意味的衝突を生成する方法を示す。
論文 参考訳(メタデータ) (2020-11-09T20:42:01Z) - Assessing Robustness of Text Classification through Maximal Safe Radius
Computation [21.05890715709053]
本研究の目的は,単語が同義語のような妥当な代替語に置き換えられた場合,モデル予測が変化しない保証を提供することである。
強靭性の尺度として、与えられた入力テキストに対して最大安全半径という概念を採用し、これは決定境界への埋め込み空間の最小距離である。
上界計算では,モンテカルロ木探索と構文フィルタリングを併用して,単語置換と単語置換の効果を解析する。
論文 参考訳(メタデータ) (2020-10-01T09:46:32Z) - Reevaluating Adversarial Examples in Natural Language [20.14869834829091]
我々は2つの最先端の同義語代用攻撃の出力を分析した。
それらの摂動はしばしば意味論を保存せず、38%が文法的誤りを導入している。
セマンティクスと文法性を改善するために制約が調整されたことにより、攻撃の成功率は70パーセント以上低下する。
論文 参考訳(メタデータ) (2020-04-25T03:09:48Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。