論文の概要: Randomized Substitution and Vote for Textual Adversarial Example
Detection
- arxiv url: http://arxiv.org/abs/2109.05698v1
- Date: Mon, 13 Sep 2021 04:17:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 16:05:19.014963
- Title: Randomized Substitution and Vote for Textual Adversarial Example
Detection
- Title(参考訳): テキスト逆例検出のためのランダム化置換と投票
- Authors: Xiaosen Wang, Yifeng Xiong, Kun He
- Abstract要約: 一連の研究により、自然なテキスト処理モデルが敵の例に弱いことが示されている。
我々はランダム化代用投票法(RS&V)と呼ばれる新しいテキスト対逆例検出法を提案する。
3つのベンチマークデータセットに対する実証的な評価は、RS&Vが既存の検出方法よりも、テキストの逆例をよりうまく検出できることを示している。
- 参考スコア(独自算出の注目度): 6.664295299367366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A line of work has shown that natural text processing models are vulnerable
to adversarial examples. Correspondingly, various defense methods are proposed
to mitigate the threat of textual adversarial examples, e.g. adversarial
training, certified defense, input pre-processing, detection, etc. In this
work, we treat the optimization process for synonym substitution based textual
adversarial attacks as a specific sequence of word replacement, in which each
word mutually influences other words. We identify that we could destroy such
mutual interaction and eliminate the adversarial perturbation by randomly
substituting a word with its synonyms. Based on this observation, we propose a
novel textual adversarial example detection method, termed Randomized
Substitution and Vote (RS&V), which votes the prediction label by accumulating
the logits of k samples generated by randomly substituting the words in the
input text with synonyms. The proposed RS&V is generally applicable to any
existing neural networks without modification on the architecture or extra
training, and it is orthogonal to prior work on making the classification
network itself more robust. Empirical evaluations on three benchmark datasets
demonstrate that RS&V could detect the textual adversarial examples more
successfully than the existing detection methods while maintaining the high
classification accuracy on benign samples.
- Abstract(参考訳): 一連の研究により、自然なテキスト処理モデルは敵の例に弱いことが示されている。
これに対応して, 対人訓練, 認証防御, 入力前処理, 検出など, テキスト対人的事例の脅威を軽減するための様々な防御手法が提案されている。
本研究は,同義語置換に基づくテクスト・アタックの最適化過程を,単語置換の特定のシーケンスとして扱い,各単語が相互に他の単語に影響を与える。
単語を同義語にランダムに置換することで、このような相互相互作用を破壊し、敵の摂動を取り除くことができる。
本研究では,入力テキスト中の単語をランダムに置換して生成したkサンプルのロジットを同義語で蓄積することにより,予測ラベルを投票するランダム化置換投票(RS&V)と呼ばれる新しいテキスト逆例検出手法を提案する。
提案されたrs&vは、アーキテクチャの変更や追加のトレーニングなしに、既存のニューラルネットワークに一般的に適用され、分類ネットワーク自体をより堅牢にする以前の作業と直交する。
3つのベンチマークデータセットの実験的評価により、RS&Vは、良性サンプルの高い分類精度を維持しながら、既存の検出方法よりも、テキストの敵対例をよりうまく検出できることが示されている。
関連論文リスト
- Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks [39.51297217854375]
ランダムな平滑化に基づく自然言語処理(NLP)のための信頼性の高いロバストネスフレームワークであるText-CRSを提案する。
テキストCRSは、4つの異なる単語レベルの対数操作すべてに対処でき、精度が大幅に向上することを示す。
また,同義語置換攻撃に対する最先端認証よりも,単語レベルの4つの操作の精度と半径に関する最初のベンチマークも提供する。
論文 参考訳(メタデータ) (2023-07-31T13:08:16Z) - Lost In Translation: Generating Adversarial Examples Robust to
Round-Trip Translation [66.33340583035374]
本研究は, ラウンドトリップ翻訳における現在のテキスト対逆攻撃の堅牢性に関する包括的研究である。
筆者らは,現在最先端のテキストベースの6つの敵攻撃が,ラウンドトリップ翻訳後の有効性を維持していないことを実証した。
本稿では,機械翻訳を逆例生成のプロセスに組み込むことにより,この問題に対する介入に基づく解決策を提案する。
論文 参考訳(メタデータ) (2023-07-24T04:29:43Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - TextShield: Beyond Successfully Detecting Adversarial Sentences in Text
Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。
従来の検出方法は、相手文に対して正しい予測を与えることができない。
本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文 参考訳(メタデータ) (2023-02-03T22:58:07Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Contrasting Human- and Machine-Generated Word-Level Adversarial Examples
for Text Classification [12.750016480098262]
我々は,入力テキスト中の単語の反復的な修正を人間に課すクラウドソーシング研究について報告する。
最近提案したTextFooler, Genetic, BAE, SememePSO 攻撃アルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2021-09-09T16:16:04Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Adversarial Semantic Collisions [129.55896108684433]
意味的衝突:意味論的に無関係だが、NLPモデルにより類似と判断されるテキストについて検討する。
我々は,意味的衝突を生成するための勾配に基づくアプローチを開発した。
パープレキシティに基づくフィルタリングを避けるために,意味的衝突を生成する方法を示す。
論文 参考訳(メタデータ) (2020-11-09T20:42:01Z) - Frequency-Guided Word Substitutions for Detecting Textual Adversarial
Examples [16.460051008283887]
我々は,CNN,LSTM,Transformerに基づく分類モデルに対する敵対攻撃が単語置換を行うことを示す。
本稿では,周波数誘導語置換法(FGWS)を提案する。
FGWS は,SST-2 と IMDb の感情データセット上での逆例を正確に検出することにより,高い性能を実現する。
論文 参考訳(メタデータ) (2020-04-13T12:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。