論文の概要: A Constraint-Enforcing Reward for Adversarial Attacks on Text Classifiers
- arxiv url: http://arxiv.org/abs/2405.11904v1
- Date: Mon, 20 May 2024 09:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 13:34:30.837522
- Title: A Constraint-Enforcing Reward for Adversarial Attacks on Text Classifiers
- Title(参考訳): テキスト分類器の逆攻撃に対する制約付き後退法
- Authors: Tom Roth, Inigo Jauregi Unanue, Alsharif Abuadbba, Massimo Piccardi,
- Abstract要約: 逆例を生成するために,エンコーダ-デコーダパラフレーズモデルを訓練する。
我々は強化学習アルゴリズムを採用し、制約付き報酬を提案する。
提案手法の主な設計選択が生成した例にどのように影響するかを示し,提案手法の長所と短所について議論する。
- 参考スコア(独自算出の注目度): 10.063169009242682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text classifiers are vulnerable to adversarial examples -- correctly-classified examples that are deliberately transformed to be misclassified while satisfying acceptability constraints. The conventional approach to finding adversarial examples is to define and solve a combinatorial optimisation problem over a space of allowable transformations. While effective, this approach is slow and limited by the choice of transformations. An alternate approach is to directly generate adversarial examples by fine-tuning a pre-trained language model, as is commonly done for other text-to-text tasks. This approach promises to be much quicker and more expressive, but is relatively unexplored. For this reason, in this work we train an encoder-decoder paraphrase model to generate a diverse range of adversarial examples. For training, we adopt a reinforcement learning algorithm and propose a constraint-enforcing reward that promotes the generation of valid adversarial examples. Experimental results over two text classification datasets show that our model has achieved a higher success rate than the original paraphrase model, and overall has proved more effective than other competitive attacks. Finally, we show how key design choices impact the generated examples and discuss the strengths and weaknesses of the proposed approach.
- Abstract(参考訳): テキスト分類器は、敵対的な例に弱い -- 正しく分類された例は、受け入れ可能性の制約を満たしつつ、意図的に非分類に変換される。
逆例を見つけるための従来のアプローチは、許容可能な変換の空間上の組合せ最適化問題を定義し、解決することである。
効果はあるものの、このアプローチは変革の選択によって遅く、制限されています。
別のアプローチは、他のテキスト・テキスト・タスクで一般的に行われているように、事前訓練された言語モデルを微調整することで、直接敵の例を生成することである。
このアプローチは、より速く、より表現力に富むことを約束するが、比較的探索されていない。
このため、本研究では、エンコーダ-デコーダパラフレーズモデルをトレーニングし、多様な逆例を生成する。
トレーニングには強化学習アルゴリズムを採用し,有効な逆例の生成を促進する制約付き報酬を提案する。
2つのテキスト分類データセットに対する実験結果から,本モデルは従来のパラフレーズモデルよりも高い成功率を示し,他の競合攻撃よりも総合的に効果的であることが判明した。
最後に、重要な設計選択が生成した例にどのように影響するかを示し、提案手法の長所と短所について議論する。
関連論文リスト
- Reversible Jump Attack to Textual Classifiers with Modification Reduction [8.247761405798874]
Reversible Jump Attack (RJA) とMetropolis-Hasting Modification Reduction (MMR) が提案されている。
RJA-MMRは、攻撃性能、非受容性、流布性、文法の正しさにおいて、現在の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T04:54:31Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for
Improving Adversarial Training [72.39526433794707]
敵の訓練とその変種は、敵の例に対抗して最も効果的なアプローチであることが示されている。
本稿では,モデルが類似した出力を生成することを奨励する,新たな対角訓練手法を提案する。
本手法は,最先端のロバスト性および自然な精度を実現する。
論文 参考訳(メタデータ) (2022-11-01T15:24:26Z) - Block-Sparse Adversarial Attack to Fool Transformer-Based Text
Classifiers [49.50163349643615]
本稿では,変圧器を用いたテキスト分類器に対して,勾配に基づく逆攻撃を提案する。
実験結果から, 文の意味を抑えながら, GPT-2の精度を5%以下に抑えることができた。
論文 参考訳(メタデータ) (2022-03-11T14:37:41Z) - BOSS: Bidirectional One-Shot Synthesis of Adversarial Examples [8.359029046999233]
本稿では,逆数例のワンショット合成を提案する。
入力はスクラッチから合成され、事前訓練されたモデルの出力で任意のソフト予測を誘導する。
本稿では,本フレームワークの汎用性と汎用性を示す。
論文 参考訳(メタデータ) (2021-08-05T17:43:36Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - Detecting Adversarial Examples by Input Transformations, Defense
Perturbations, and Voting [71.57324258813674]
畳み込みニューラルネットワーク(CNN)は、視覚認識タスクにおいて超人的性能に達することが証明されている。
CNNは敵の例、すなわち不正な出力をネットワークに強制する悪意のある画像によって簡単に騙される。
本稿では,画像変換による敵例の検出を幅広く検討し,新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-27T14:50:41Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - ATRO: Adversarial Training with a Rejection Option [10.36668157679368]
本稿では, 逆例による性能劣化を軽減するために, 拒否オプション付き分類フレームワークを提案する。
分類器と拒否関数を同時に適用することにより、テストデータポイントの分類に自信が不十分な場合に分類を控えることができる。
論文 参考訳(メタデータ) (2020-10-24T14:05:03Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。