論文の概要: TextGrad: Advancing Robustness Evaluation in NLP by Gradient-Driven
Optimization
- arxiv url: http://arxiv.org/abs/2212.09254v1
- Date: Mon, 19 Dec 2022 05:55:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 16:29:04.092353
- Title: TextGrad: Advancing Robustness Evaluation in NLP by Gradient-Driven
Optimization
- Title(参考訳): TextGrad: 勾配駆動最適化によるNLPのロバスト性評価の改善
- Authors: Bairu Hou, Jinghan Jia, Yihua Zhang, Guanhua Zhang, Yang Zhang, Sijia
Liu, Shiyu Chang
- Abstract要約: グラデーション駆動最適化を用いた新たな攻撃生成器であるTextGradを提案する。
本研究では,連続的なゆらぎのあるサイト選択と摂動変数を共最適化する効果的な凸緩和法を開発した。
1次攻撃生成法として、TextGradは、NLPモデルの堅牢性をさらに向上するために、敵の訓練に組み込むことができる。
- 参考スコア(独自算出の注目度): 35.8795761863398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robustness evaluation against adversarial examples has become increasingly
important to unveil the trustworthiness of the prevailing deep models in
natural language processing (NLP). However, in contrast to the computer vision
domain where the first-order projected gradient descent (PGD) is used as the
benchmark approach to generate adversarial examples for robustness evaluation,
there lacks a principled first-order gradient-based robustness evaluation
framework in NLP. The emerging optimization challenges lie in 1) the discrete
nature of textual inputs together with the strong coupling between the
perturbation location and the actual content, and 2) the additional constraint
that the perturbed text should be fluent and achieve a low perplexity under a
language model. These challenges make the development of PGD-like NLP attacks
difficult. To bridge the gap, we propose TextGrad, a new attack generator using
gradient-driven optimization, supporting high-accuracy and high-quality
assessment of adversarial robustness in NLP. Specifically, we address the
aforementioned challenges in a unified optimization framework. And we develop
an effective convex relaxation method to co-optimize the continuously-relaxed
site selection and perturbation variables and leverage an effective sampling
method to establish an accurate mapping from the continuous optimization
variables to the discrete textual perturbations. Moreover, as a first-order
attack generation method, TextGrad can be baked into adversarial training to
further improve the robustness of NLP models. Extensive experiments are
provided to demonstrate the effectiveness of TextGrad not only in attack
generation for robustness evaluation but also in adversarial defense.
- Abstract(参考訳): 自然言語処理 (NLP) において, 先行する深層モデルの信頼性を明らかにする上で, 敵例に対するロバスト性評価がますます重要になっている。
しかし、強靭性評価のための逆例を生成するベンチマーク手法として、一階射影勾配降下(PGD)を用いるコンピュータビジョン領域とは対照的に、NLPには一階射影勾配に基づく強靭性評価フレームワークがない。
新たな最適化の課題は
1)テキスト入力の離散的性質と摂動位置と実際の内容との強い結合
2) 摂動テキストが流動的で言語モデル下での難易度が低くなければならないという追加の制約。
これらの課題はPGDライクなNLP攻撃の開発を困難にしている。
このギャップを埋めるために,勾配駆動最適化を用いた新たな攻撃生成器であるTextGradを提案する。
具体的には,上記の課題を統一最適化フレームワークで解決する。
また, 連続的なゆらぎとゆらぎを同時最適化する効率的な凸緩和法を開発し, 効率的なサンプリング手法を用いて, 連続的な最適化変数から離散的なテキストの摂動への正確なマッピングを確立する。
さらに、一階攻撃生成法として、TextGradを敵訓練に組み込むことで、NLPモデルの堅牢性をさらに向上することができる。
攻撃発生におけるTextGradの有効性を実証するため, 強靭性評価だけでなく, 敵防御にも有効であることを示すため, 広範囲な実験を行った。
関連論文リスト
- Positive Text Reframing under Multi-strategy Optimization [2.6345343328000856]
本稿では,流動的で多様なタスク制約のあるリフレーミングテキストを生成するフレームワークを提案する。
我々のフレームワークは、制約なしおよび制御なしのポジティブリフレーミングタスクにおいて、大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-07-25T10:58:42Z) - STBA: Towards Evaluating the Robustness of DNNs for Query-Limited Black-box Scenario [50.37501379058119]
本研究では,クエリ制限シナリオにおいて,悪意のある逆の例を作成するために,空間変換ブラックボックス攻撃(STBA)を提案する。
そこで本研究では,STBAが対向例の認識不能性を効果的に改善し,クエリ制限条件下での攻撃成功率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-03-30T13:28:53Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Revisiting and Advancing Fast Adversarial Training Through The Lens of
Bi-Level Optimization [60.72410937614299]
提案手法は,2レベルAT(FAST-BAT)と呼ばれる新しいアルゴリズムセットの設計と解析である。
FAST-BATは、グラデーションサインメソッドや明示的なロバスト正規化を呼ぶことなく、符号ベースの投射降下(PGD)攻撃を防御することができる。
論文 参考訳(メタデータ) (2021-12-23T06:25:36Z) - On the Convergence and Robustness of Adversarial Training [134.25999006326916]
Project Gradient Decent (PGD) によるアドリアリトレーニングが最も効果的である。
生成した逆数例の収束性を向上させるためのテクトダイナミックトレーニング戦略を提案する。
その結果,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2021-12-15T17:54:08Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - Learning to Selectively Learn for Weakly-supervised Paraphrase
Generation [81.65399115750054]
弱監督データを用いた高品質なパラフレーズを生成するための新しい手法を提案する。
具体的には、弱制御されたパラフレーズ生成問題に以下のように取り組む。
検索に基づく擬似パラフレーズ展開により、豊富なラベル付き並列文を得る。
提案手法は,既存の教師なしアプローチよりも大幅に改善され,教師付き最先端技術と同等の性能を示す。
論文 参考訳(メタデータ) (2021-09-25T23:31:13Z) - Efficient Combinatorial Optimization for Word-level Adversarial Textual
Attack [26.91645793706187]
自然言語処理で使用されるディープニューラルネットワークの脆弱性を明らかにするために、様々な単語レベルのテキスト攻撃手法が提案されている。
一般のケースでこの問題を解決するために,効率的な局所探索アルゴリズム (LS) を提案する。
LSは攻撃の成功率を高めるために,通常桁違いのクエリ数を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-09-06T03:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。