論文の概要: Perturbations in the Wild: Leveraging Human-Written Text Perturbations
for Realistic Adversarial Attack and Defense
- arxiv url: http://arxiv.org/abs/2203.10346v1
- Date: Sat, 19 Mar 2022 16:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 16:38:49.906353
- Title: Perturbations in the Wild: Leveraging Human-Written Text Perturbations
for Realistic Adversarial Attack and Defense
- Title(参考訳): 野生の摂動: リアルな敵の攻撃と防御に人間の文章摂動を利用する
- Authors: Thai Le, Jooyoung Lee, Kevin Yen, Yifan Hu, Dongwon Lee
- Abstract要約: ANTHROは、野生で600万以上の人間が書いたテキストの摂動を誘導的に抽出し、それらを現実的な敵攻撃に活用する。
本研究では,(1)攻撃成功率,(2)原文の意味的保存,(3)人文と区別できないステルスネスのトレードオフを,AnTHROが生成した敵対的テキストが達成できることを見出した。
- 参考スコア(独自算出の注目度): 19.76930957323042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We proposes a novel algorithm, ANTHRO, that inductively extracts over 600K
human-written text perturbations in the wild and leverages them for realistic
adversarial attack. Unlike existing character-based attacks which often
deductively hypothesize a set of manipulation strategies, our work is grounded
on actual observations from real-world texts. We find that adversarial texts
generated by ANTHRO achieve the best trade-off between (1) attack success rate,
(2) semantic preservation of the original text, and (3) stealthiness--i.e.
indistinguishable from human writings hence harder to be flagged as suspicious.
Specifically, our attacks accomplished around 83% and 91% attack success rates
on BERT and RoBERTa, respectively. Moreover, it outperformed the TextBugger
baseline with an increase of 50% and 40% in terms of semantic preservation and
stealthiness when evaluated by both layperson and professional human workers.
ANTHRO can further enhance a BERT classifier's performance in understanding
different variations of human-written toxic texts via adversarial training when
compared to the Perspective API.
- Abstract(参考訳): そこで本研究では,野生における600万以上の人文文摂動を誘導的に抽出し,現実的な敵攻撃に活用する新しいアルゴリズムANTHROを提案する。
操作戦略のセットを推論的に仮定する既存の文字ベースの攻撃とは異なり、本研究は実世界のテキストからの実際の観察に基づいている。
その結果,アントロが生成した敵文は,(1)攻撃成功率,(2)原文の意味保存,(3)人文と区別できないステルス性,など,疑わしい印象を与えるのが困難であった。
具体的には,BERTとRoBERTaの攻撃成功率は,約83%,91%であった。
さらに,作業員と作業員の両方で評価した場合,意味的保存とステルス性の観点から,textbuggerベースラインを50%,40%向上させた。
ANTHROは、パースペクティブAPIと比較して、人書き有害テキストのさまざまなバリエーションを理解することでBERT分類器の性能をさらに向上させることができる。
関連論文リスト
- Vision-fused Attack: Advancing Aggressive and Stealthy Adversarial Text against Neural Machine Translation [24.237246648082085]
本稿では,視覚融合攻撃(VFA)フレームワークを提案する。
そこで本研究では,ヒトのテキスト読解機構を整列させるために,認識が保持するテキスト選択戦略を提案する。
論文 参考訳(メタデータ) (2024-09-08T08:22:17Z) - Semantic Stealth: Adversarial Text Attacks on NLP Using Several Methods [0.0]
テキスト敵攻撃は、入力テキストを意図的に操作することで、モデルの予測を誤解させる。
本稿では,BERT,BERT-on-BERT,Fraud Bargain's Attack (FBA)について述べる。
PWWSは最も強力な敵として登場し、複数の評価シナリオで他のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-04-08T02:55:01Z) - RobustSentEmbed: Robust Sentence Embeddings Using Adversarial Self-Supervised Contrastive Learning [11.347789553984741]
RobustSentEmbedは、テキスト表現タスクの堅牢性を改善するために設計された、自己教師型文埋め込みフレームワークである。
本フレームワークは,様々な敵攻撃の成功率を大幅に低下させ,BERTAttackの成功率をほぼ半分に削減する。
論文 参考訳(メタデータ) (2024-03-17T04:29:45Z) - Asymmetric Bias in Text-to-Image Generation with Adversarial Attacks [21.914674640285337]
本稿では、攻撃成功率(ASR)に関連する要因の分析に焦点をあてる。
敵接尾辞と2つの勾配に基づく攻撃アルゴリズムを用いた新たな攻撃目標であるエンティティスワップを導入する。
敵の攻撃で成功確率が60%になる状況と、この確率が5%以下に低下する状況を見いだす。
論文 参考訳(メタデータ) (2023-12-22T05:10:32Z) - How do humans perceive adversarial text? A reality check on the validity
and naturalness of word-based adversarial attacks [4.297786261992324]
敵対的攻撃は 不正なアルゴリズムだ 入力テキストを不当に修正して モデルに誤った予測をさせる
378人の被験者を対象に,最先端の手法によるテキスト対逆例の知覚可能性について調査した。
以上の結果から,既存のテキスト攻撃は人間が関与する現実のシナリオでは実行不可能であることが示唆された。
論文 参考訳(メタデータ) (2023-05-24T21:52:13Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。