論文の概要: Certified Robustness to Text Adversarial Attacks by Randomized [MASK]
- arxiv url: http://arxiv.org/abs/2105.03743v1
- Date: Sat, 8 May 2021 16:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:03:55.511838
- Title: Certified Robustness to Text Adversarial Attacks by Randomized [MASK]
- Title(参考訳): ランダム化[MASK]によるテキスト逆攻撃に対する認証ロバスト性
- Authors: Jiehang Zeng, Xiaoqing Zheng, Jianhan Xu, Linyang Li, Liping Yuan and
Xuanjing Huang
- Abstract要約: 入力テキスト中の単語の一定割合をランダムにマスキングすることで,頑健な防御手法を提案する。
提案手法は,単語置換に基づく攻撃だけでなく,文字レベルの摂動も防御できる。
AGNEWSの5ワード、SST2データセットの2ワードの任意の摂動に堅牢であるために、50%以上のテキストの分類を証明できます。
- 参考スコア(独自算出の注目度): 39.07743913719665
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, few certified defense methods have been developed to provably
guarantee the robustness of a text classifier to adversarial synonym
substitutions. However, all existing certified defense methods assume that the
defenders are informed of how the adversaries generate synonyms, which is not a
realistic scenario. In this paper, we propose a certifiably robust defense
method by randomly masking a certain proportion of the words in an input text,
in which the above unrealistic assumption is no longer necessary. The proposed
method can defend against not only word substitution-based attacks, but also
character-level perturbations. We can certify the classifications of over 50%
texts to be robust to any perturbation of 5 words on AGNEWS, and 2 words on
SST2 dataset. The experimental results show that our randomized smoothing
method significantly outperforms recently proposed defense methods across
multiple datasets.
- Abstract(参考訳): 近年,テキスト分類器の頑健性を保証するための認証防衛手法が開発されている。
しかし、既存のすべての認証された防御手法は、敵がどのようにシノニムを生成しているのかを被告に知らせるものであると仮定している。
本稿では,上記の非現実的な仮定がもはや不要な入力テキストにおいて,単語の一定割合をランダムにマスキングすることにより,頑健な防御手法を提案する。
提案手法は,単語置換に基づく攻撃だけでなく,文字レベルの摂動も防御できる。
50%以上のテキストの分類はAGNEWS上の5ワード,SST2データセット上の2ワードの摂動に対して堅牢である。
実験の結果, ランダム化平滑化手法は, 最近提案されている複数のデータセットにわたる防御手法を大きく上回ることがわかった。
関連論文リスト
- MaskPure: Improving Defense Against Text Adversaries with Stochastic Purification [7.136205674624813]
コンピュータビジョン設定では、ノイズ除去処理は入力画像の浄化に有用であることが証明されている。
いくつかの初期の研究は、NLP設定における敵攻撃を緩和するためにランダムノイズ化とデノイズ化の使用について検討している。
我々は拡散過程にインスパイアされた入力浄化テキストの手法を拡張した。
われわれの新しい手法であるMaskPureは、他の現代の防御法と比べて頑丈さを上回ったり、一致させたりします。
論文 参考訳(メタデータ) (2024-06-18T21:27:13Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks [39.51297217854375]
ランダムな平滑化に基づく自然言語処理(NLP)のための信頼性の高いロバストネスフレームワークであるText-CRSを提案する。
テキストCRSは、4つの異なる単語レベルの対数操作すべてに対処でき、精度が大幅に向上することを示す。
また,同義語置換攻撃に対する最先端認証よりも,単語レベルの4つの操作の精度と半径に関する最初のベンチマークも提供する。
論文 参考訳(メタデータ) (2023-07-31T13:08:16Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - TextShield: Beyond Successfully Detecting Adversarial Sentences in Text
Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。
従来の検出方法は、相手文に対して正しい予測を与えることができない。
本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文 参考訳(メタデータ) (2023-02-03T22:58:07Z) - WeDef: Weakly Supervised Backdoor Defense for Text Classification [48.19967241668793]
既存のバックドア防御法は、限定的なトリガータイプにのみ有効である。
本稿では,弱教師付きバックドア防御フレームワークWeDefを提案する。
WeDefは一般的なトリガーベースの攻撃に対して有効であることを示す。
論文 参考訳(メタデータ) (2022-05-24T05:53:11Z) - Don't sweat the small stuff, classify the rest: Sample Shielding to
protect text classifiers against adversarial attacks [2.512827436728378]
ディープラーニング(DL)はテキスト分類に広く使われている。
攻撃者は、元の意味をそのままに保ちながら、分類器を誤解させる方法でテキストを変更する。
サンプルシールドという,新規で直感的な防衛戦略を提案する。
論文 参考訳(メタデータ) (2022-05-03T18:24:20Z) - Randomized Substitution and Vote for Textual Adversarial Example
Detection [6.664295299367366]
一連の研究により、自然なテキスト処理モデルが敵の例に弱いことが示されている。
我々はランダム化代用投票法(RS&V)と呼ばれる新しいテキスト対逆例検出法を提案する。
3つのベンチマークデータセットに対する実証的な評価は、RS&Vが既存の検出方法よりも、テキストの逆例をよりうまく検出できることを示している。
論文 参考訳(メタデータ) (2021-09-13T04:17:58Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。