論文の概要: Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2307.16630v2
- Date: Tue, 11 Jun 2024 15:40:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 01:18:21.070812
- Title: Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks
- Title(参考訳): Text-CRS: テキスト敵対攻撃に対する一般化されたロバストネスフレームワーク
- Authors: Xinyu Zhang, Hanbin Hong, Yuan Hong, Peng Huang, Binghui Wang, Zhongjie Ba, Kui Ren,
- Abstract要約: ランダムな平滑化に基づく自然言語処理(NLP)のための信頼性の高いロバストネスフレームワークであるText-CRSを提案する。
テキストCRSは、4つの異なる単語レベルの対数操作すべてに対処でき、精度が大幅に向上することを示す。
また,同義語置換攻撃に対する最先端認証よりも,単語レベルの4つの操作の精度と半径に関する最初のベンチマークも提供する。
- 参考スコア(独自算出の注目度): 39.51297217854375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The language models, especially the basic text classification models, have been shown to be susceptible to textual adversarial attacks such as synonym substitution and word insertion attacks. To defend against such attacks, a growing body of research has been devoted to improving the model robustness. However, providing provable robustness guarantees instead of empirical robustness is still widely unexplored. In this paper, we propose Text-CRS, a generalized certified robustness framework for natural language processing (NLP) based on randomized smoothing. To our best knowledge, existing certified schemes for NLP can only certify the robustness against $\ell_0$ perturbations in synonym substitution attacks. Representing each word-level adversarial operation (i.e., synonym substitution, word reordering, insertion, and deletion) as a combination of permutation and embedding transformation, we propose novel smoothing theorems to derive robustness bounds in both permutation and embedding space against such adversarial operations. To further improve certified accuracy and radius, we consider the numerical relationships between discrete words and select proper noise distributions for the randomized smoothing. Finally, we conduct substantial experiments on multiple language models and datasets. Text-CRS can address all four different word-level adversarial operations and achieve a significant accuracy improvement. We also provide the first benchmark on certified accuracy and radius of four word-level operations, besides outperforming the state-of-the-art certification against synonym substitution attacks.
- Abstract(参考訳): 言語モデル、特に基本テキスト分類モデルは、同義語置換や単語挿入攻撃のようなテキストの敵対攻撃に影響を受けやすいことが示されている。
このような攻撃から守るために、モデルロバスト性を改善する研究機関が成長してきた。
しかし、実証的ロバスト性の代わりに証明可能なロバスト性を保証することは、まだ広く研究されていない。
本稿では,ランダムなスムース化に基づく自然言語処理(NLP)のための一般化された堅牢性フレームワークであるText-CRSを提案する。
我々の知る限り、NLPの既存の認証スキームは、同義置換攻撃における$\ell_0$摂動に対する堅牢性しか証明できない。
置換と埋め込み変換の組み合わせとして,各単語レベルの逆行操作(同義語置換,単語の並べ替え,挿入,削除)を表現し,このような逆行操作に対して,置換と埋め込みの双方において堅牢性境界を導出するための新しい滑らか化定理を提案する。
精度と半径をさらに向上するため、離散語間の数値関係を考察し、ランダムな平滑化のための適切な雑音分布を選択する。
最後に、複数の言語モデルとデータセットについてかなりの実験を行う。
Text-CRSは、4つの異なる単語レベルの対数操作すべてに対処でき、精度が大幅に向上する。
また,同義語置換攻撃に対する最先端認証よりも,単語レベルの4つの操作の精度と半径に関する最初のベンチマークも提供する。
関連論文リスト
- CR-UTP: Certified Robustness against Universal Text Perturbations on Large Language Models [12.386141652094999]
ランダムな平滑化に基づく既存の証明されたロバスト性は、入力固有のテキスト摂動の証明にかなりの可能性を示している。
ナイーブな方法は、単にマスキング比とマスキング攻撃トークンの可能性を増大させることであるが、認証精度と認証半径の両方を著しく低下させる。
本研究では,マスキングにおいて高い認証精度を維持する優れたプロンプトを識別する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T01:02:22Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Towards Robustness Against Natural Language Word Substitutions [87.56898475512703]
単語置換に対するロバスト性は、意味論的に類似した単語を置換として、明確に定義され広く受け入れられる形式である。
従来の防衛方法は、$l$-ball または hyper-rectangle を用いてベクトル空間における単語置換をキャプチャする。
論文 参考訳(メタデータ) (2021-07-28T17:55:08Z) - Certified Robustness to Text Adversarial Attacks by Randomized [MASK] [39.07743913719665]
入力テキスト中の単語の一定割合をランダムにマスキングすることで,頑健な防御手法を提案する。
提案手法は,単語置換に基づく攻撃だけでなく,文字レベルの摂動も防御できる。
AGNEWSの5ワード、SST2データセットの2ワードの任意の摂動に堅牢であるために、50%以上のテキストの分類を証明できます。
論文 参考訳(メタデータ) (2021-05-08T16:59:10Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - SAFER: A Structure-free Approach for Certified Robustness to Adversarial
Word Substitutions [36.91111335989236]
最先端のNLPモデルは、同義語置換のような人間の変換によってしばしば騙される。
入力文にランダムな単語置換を適用してアンサンブルを構成する,新しいランダム化平滑化手法を提案する。
本手法は,IMDBとAmazonのテキスト分類タスクにおいて,信頼性の高いロバスト性を示す最新手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-05-29T07:15:19Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。