論文の概要: Gradient-Based Word Substitution for Obstinate Adversarial Examples
Generation in Language Models
- arxiv url: http://arxiv.org/abs/2307.12507v2
- Date: Fri, 18 Aug 2023 03:07:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 19:26:02.869638
- Title: Gradient-Based Word Substitution for Obstinate Adversarial Examples
Generation in Language Models
- Title(参考訳): 言語モデルにおける従属例生成のための勾配に基づく単語置換
- Authors: Yimu Wang, Peng Shi, Hongyang Zhang
- Abstract要約: 勾配に基づくアプローチであるGradObstinateを導入する。
広範囲にわたる実験により,提案したGradObstinateはより強力な強敵の例が得られた。
GradObstinateが見いだした頑健な単語置換の伝達可能性を示すために,4つの代表的NLPベンチマークの単語を、その頑健な置換に置き換える。
- 参考スコア(独自算出の注目度): 24.27437576645939
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we study the problem of generating obstinate (over-stability)
adversarial examples by word substitution in NLP, where input text is
meaningfully changed but the model's prediction does not, even though it
should. Previous word substitution approaches have predominantly focused on
manually designed antonym-based strategies for generating obstinate adversarial
examples, which hinders its application as these strategies can only find a
subset of obstinate adversarial examples and require human efforts. To address
this issue, in this paper, we introduce a novel word substitution method named
GradObstinate, a gradient-based approach that automatically generates obstinate
adversarial examples without any constraints on the search space or the need
for manual design principles. To empirically evaluate the efficacy of
GradObstinate, we conduct comprehensive experiments on five representative
models (Electra, ALBERT, Roberta, DistillBERT, and CLIP) finetuned on four NLP
benchmarks (SST-2, MRPC, SNLI, and SQuAD) and a language-grounding benchmark
(MSCOCO). Extensive experiments show that our proposed GradObstinate generates
more powerful obstinate adversarial examples, exhibiting a higher attack
success rate compared to antonym-based methods. Furthermore, to show the
transferability of obstinate word substitutions found by GradObstinate, we
replace the words in four representative NLP benchmarks with their obstinate
substitutions. Notably, obstinate substitutions exhibit a high success rate
when transferred to other models in black-box settings, including even GPT-3
and ChatGPT. Examples of obstinate adversarial examples found by GradObstinate
are available at https://huggingface.co/spaces/anonauthors/SecretLanguage.
- Abstract(参考訳): 本論文では,入力テキストが有意に変化するが,モデルが予測するべきでない,NLPにおける単語置換による強直的(不安定な)逆例を生成する問題について検討する。
従来の単語置換アプローチは、強敵の例を生成するために手動で設計されたアントロニムベースの戦略に主に焦点を合わせてきたが、これは強敵の例のサブセットを見つけることができ、人間の努力を必要とするため、その適用を妨げている。
そこで本論文では,探索空間や手動設計の原則に制約を伴わずに,不規則な逆例を自動的に生成する勾配に基づくアプローチであるGradObstinateという単語置換手法を提案する。
筆者らはGradObstinateの有効性を実証的に評価するために,4つのNLPベンチマーク(SST-2, MRPC, SNLI, SQuAD)と言語グラウンドベンチマーク(MSCOCO)で微調整された5つの代表モデル(Electra, ALBERT, Roberta, DistillBERT, CLIP)の総合的な実験を行った。
広範な実験により,提案するgradobstinateは,対義語ベースの手法よりも攻撃成功率の高い,より強力な敵意的な例を生成することが示された。
さらに,GradObstinateが見いだした単語置換の伝達可能性を示すために,4つの代表的NLPベンチマークの単語を定式置換に置き換える。
特に、不安定な置換は、GPT-3やChatGPTなど、ブラックボックス設定で他のモデルに移行すると高い成功率を示す。
GradObstinateが見つけた強敵の例はhttps://huggingface.co/spaces/anonauthors/SecretLanguageにある。
関連論文リスト
- HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack
on Text [40.58680960214544]
テキストに対するブラックボックスのハードラベルの敵攻撃は、実用的で困難な作業である。
そこで我々は,HQA-Attack というブラックボックス・ハードラベル攻撃シナリオの下で,高品質な敵の例を生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T10:06:43Z) - Less is More: Understanding Word-level Textual Adversarial Attack via n-gram Frequency Descend [34.58191062593758]
本研究の目的は,$n$-gramの周波数パターンを調べることで,単語レベルの攻撃を解釈することである。
包括的実験により,約90%のケースにおいて,単語レベルの攻撃は,$n$-gramの頻度が減少する事例の発生につながることが明らかとなった。
この発見は、モデルの堅牢性を高めるための簡単な戦略を示唆している。
論文 参考訳(メタデータ) (2023-02-06T05:11:27Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Unsupervised Syntactically Controlled Paraphrase Generation with
Abstract Meaning Representations [59.10748929158525]
抽象表現(AMR)は、教師なし構文制御されたパラフレーズ生成の性能を大幅に向上させることができる。
提案モデルであるAMRPGは,AMRグラフを符号化し,入力文を2つの非絡み合った意味的および構文的埋め込みに解析する。
実験により、AMRPGは既存の教師なしアプローチと比較して、定量的かつ質的に、より正確な構文制御されたパラフレーズを生成することが示された。
論文 参考訳(メタデータ) (2022-11-02T04:58:38Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - Detecting Textual Adversarial Examples Based on Distributional
Characteristics of Data Representations [11.93653349589025]
逆の例は、正しく分類された入力に小さな非ランダムな摂動を加えることで構成される。
自然言語タスクにおける敵対的攻撃へのアプローチは、文字レベル、単語レベル、フレーズレベルの摂動を用いて、過去5年間にブームとなった。
我々はこのギャップを埋めるために,NLPのための2つの新しいリアクティブ手法を提案する。
適応 LID と MDRE は、IMDB データセットに対する文字レベル、単語レベル、フレーズレベルの攻撃に対して、最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-29T02:32:02Z) - Block-Sparse Adversarial Attack to Fool Transformer-Based Text
Classifiers [49.50163349643615]
本稿では,変圧器を用いたテキスト分類器に対して,勾配に基づく逆攻撃を提案する。
実験結果から, 文の意味を抑えながら, GPT-2の精度を5%以下に抑えることができた。
論文 参考訳(メタデータ) (2022-03-11T14:37:41Z) - Phrase-level Adversarial Example Generation for Neural Machine
Translation [75.01476479100569]
本稿では,句レベルの逆例生成(PAEG)手法を提案し,モデルの堅牢性を高める。
我々は,LDC中英語,IWSLT14ドイツ語-英語,WMT14英語-ドイツ語タスクの3つのベンチマークで検証を行った。
論文 参考訳(メタデータ) (2022-01-06T11:00:49Z) - Learning to Selectively Learn for Weakly-supervised Paraphrase
Generation [81.65399115750054]
弱監督データを用いた高品質なパラフレーズを生成するための新しい手法を提案する。
具体的には、弱制御されたパラフレーズ生成問題に以下のように取り組む。
検索に基づく擬似パラフレーズ展開により、豊富なラベル付き並列文を得る。
提案手法は,既存の教師なしアプローチよりも大幅に改善され,教師付き最先端技術と同等の性能を示す。
論文 参考訳(メタデータ) (2021-09-25T23:31:13Z) - Experiments with adversarial attacks on text genres [0.0]
BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、多くのNLPタスクにおいてSOTA結果を示す。
そこで本研究では,最も重要な単語のいくつかを類似した単語に置き換えることができる埋め込み型アルゴリズムが,モデル予測にかなりの割合で影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。