論文の概要: CR-UTP: Certified Robustness against Universal Text Perturbations
- arxiv url: http://arxiv.org/abs/2406.01873v1
- Date: Tue, 4 Jun 2024 01:02:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 20:23:04.317052
- Title: CR-UTP: Certified Robustness against Universal Text Perturbations
- Title(参考訳): CR-UTP: ユニバーサルテキスト摂動に対するロバスト性認定
- Authors: Qian Lou, Xin Liang, Jiaqi Xue, Yancheng Zhang, Rui Xie, Mengxin Zheng,
- Abstract要約: ランダムな平滑化に基づく既存の証明されたロバスト性は、入力固有のテキスト摂動の証明にかなりの可能性を示している。
ナイーブな方法は、単にマスキング比とマスキング攻撃トークンの可能性を増大させることであるが、認証精度と認証半径の両方を著しく低下させる。
本研究では,マスキングにおいて高い認証精度を維持する優れたプロンプトを識別する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 12.386141652094999
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: It is imperative to ensure the stability of every prediction made by a language model; that is, a language's prediction should remain consistent despite minor input variations, like word substitutions. In this paper, we investigate the problem of certifying a language model's robustness against Universal Text Perturbations (UTPs), which have been widely used in universal adversarial attacks and backdoor attacks. Existing certified robustness based on random smoothing has shown considerable promise in certifying the input-specific text perturbations (ISTPs), operating under the assumption that any random alteration of a sample's clean or adversarial words would negate the impact of sample-wise perturbations. However, with UTPs, masking only the adversarial words can eliminate the attack. A naive method is to simply increase the masking ratio and the likelihood of masking attack tokens, but it leads to a significant reduction in both certified accuracy and the certified radius due to input corruption by extensive masking. To solve this challenge, we introduce a novel approach, the superior prompt search method, designed to identify a superior prompt that maintains higher certified accuracy under extensive masking. Additionally, we theoretically motivate why ensembles are a particularly suitable choice as base prompts for random smoothing. The method is denoted by superior prompt ensembling technique. We also empirically confirm this technique, obtaining state-of-the-art results in multiple settings. These methodologies, for the first time, enable high certified accuracy against both UTPs and ISTPs. The source code of CR-UTP is available at https://github.com/UCFML-Research/CR-UTP.
- Abstract(参考訳): 言語モデルによってなされる全ての予測の安定性を保証することは必須であり、すなわち、単語置換のような小さな入力のバリエーションにもかかわらず、言語の予測は一貫していなければならない。
本稿では,ユビキタステキスト摂動(UTP)に対する言語モデルの堅牢性を検証することの問題点について考察する。
ランダムスムーシングに基づく既存の証明されたロバスト性は、サンプルのクリーンな単語や逆境的な単語のランダムな変更がサンプルの摂動の影響を無効にするという仮定の下で、入力固有のテキスト摂動(ISTP)の証明にかなりの可能性を示している。
しかし、UTPでは、敵の単語のみをマスキングすることで攻撃を排除できる。
ナイーブな方法は、単にマスキング比とマスキング攻撃トークンの可能性を増大させることであるが、広範なマスキングによる入力汚損による認証精度と認証半径の両方が著しく低下する。
この課題を解決するために,広範囲なマスキングの下で高い認証精度を維持する優れたプロンプトを識別するための新しい手法,優れたプロンプト探索手法を提案する。
さらに、なぜアンサンブルがランダムな平滑化のためのベースプロンプトとして特に適した選択なのかを理論的に動機づける。
この方法は、より優れたプロンプトアンサンブル技術によって示される。
また、この手法を実証的に確認し、複数の設定で最先端の結果を得る。
これらの手法は、初めて、UPPとISTPの両方に対して高い認証精度を実現する。
CR-UTPのソースコードはhttps://github.com/UCFML-Research/CR-UTPで公開されている。
関連論文リスト
- MaskPure: Improving Defense Against Text Adversaries with Stochastic Purification [7.136205674624813]
コンピュータビジョン設定では、ノイズ除去処理は入力画像の浄化に有用であることが証明されている。
いくつかの初期の研究は、NLP設定における敵攻撃を緩和するためにランダムノイズ化とデノイズ化の使用について検討している。
我々は拡散過程にインスパイアされた入力浄化テキストの手法を拡張した。
われわれの新しい手法であるMaskPureは、他の現代の防御法と比べて頑丈さを上回ったり、一致させたりします。
論文 参考訳(メタデータ) (2024-06-18T21:27:13Z) - Are AI-Generated Text Detectors Robust to Adversarial Perturbations? [9.001160538237372]
AI生成テキスト(AIGT)の現在の検出器は、敵の摂動に対する堅牢性を欠いている。
本稿では,既存のAIGT検出手法の堅牢性について検討し,新しい検出器であるシームズキャリブレーション・リコンストラクション・ネットワーク(SCRN)を導入する。
SCRNは、テキストからのノイズの追加と除去に再構成ネットワークを使用し、局所的な摂動に対して堅牢な意味表現を抽出する。
論文 参考訳(メタデータ) (2024-06-03T10:21:48Z) - Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。
そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。
SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文 参考訳(メタデータ) (2024-03-26T09:25:57Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks [39.51297217854375]
ランダムな平滑化に基づく自然言語処理(NLP)のための信頼性の高いロバストネスフレームワークであるText-CRSを提案する。
テキストCRSは、4つの異なる単語レベルの対数操作すべてに対処でき、精度が大幅に向上することを示す。
また,同義語置換攻撃に対する最先端認証よりも,単語レベルの4つの操作の精度と半径に関する最初のベンチマークも提供する。
論文 参考訳(メタデータ) (2023-07-31T13:08:16Z) - Adaptive Shrink-Mask for Text Detection [91.34459257409104]
既存のリアルタイムテキスト検出器は、ストリップマスクによってテキストの輪郭を直接再構築する。
予測された収縮マスクへの依存は不安定な検出結果をもたらす。
スーパーピクセルウィンドウ (SPW) はネットワークを監督するように設計されている。
論文 参考訳(メタデータ) (2021-11-18T07:38:57Z) - Defending Pre-trained Language Models from Adversarial Word
Substitutions Without Performance Sacrifice [42.490810188180546]
敵対的単語置換は 最も困難な テキストの敵対的攻撃方法の1つです
本稿では、ADFAR(Anomaly Detection with Frequency-Aware Randomization)という、コンパクトかつ高性能に保存されたフレームワークを提案する。
本研究では, ADFAR が提案した防衛手法を, より高速な推論速度で大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-05-30T14:24:53Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。