論文の概要: Frequency-Guided Word Substitutions for Detecting Textual Adversarial
Examples
- arxiv url: http://arxiv.org/abs/2004.05887v2
- Date: Tue, 26 Jan 2021 09:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 23:51:37.821095
- Title: Frequency-Guided Word Substitutions for Detecting Textual Adversarial
Examples
- Title(参考訳): テキスト逆例検出のための周波数誘導語置換法
- Authors: Maximilian Mozes, Pontus Stenetorp, Bennett Kleinberg, Lewis D.
Griffin
- Abstract要約: 我々は,CNN,LSTM,Transformerに基づく分類モデルに対する敵対攻撃が単語置換を行うことを示す。
本稿では,周波数誘導語置換法(FGWS)を提案する。
FGWS は,SST-2 と IMDb の感情データセット上での逆例を正確に検出することにより,高い性能を実現する。
- 参考スコア(独自算出の注目度): 16.460051008283887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent efforts have shown that neural text processing models are vulnerable
to adversarial examples, but the nature of these examples is poorly understood.
In this work, we show that adversarial attacks against CNN, LSTM and
Transformer-based classification models perform word substitutions that are
identifiable through frequency differences between replaced words and their
corresponding substitutions. Based on these findings, we propose
frequency-guided word substitutions (FGWS), a simple algorithm exploiting the
frequency properties of adversarial word substitutions for the detection of
adversarial examples. FGWS achieves strong performance by accurately detecting
adversarial examples on the SST-2 and IMDb sentiment datasets, with F1
detection scores of up to 91.4% against RoBERTa-based classification models. We
compare our approach against a recently proposed perturbation discrimination
framework and show that we outperform it by up to 13.0% F1.
- Abstract(参考訳): 近年の研究では、ニューラルテキスト処理モデルが敵の例に弱いことが示されているが、これらの例の性質はよく分かっていない。
本研究では,cnn,lstmおよびtransformerに基づく分類モデルに対する攻撃が,置換語とその置換語間の周波数差によって識別可能な単語置換を行うことを示す。
そこで本研究では, 逆例検出のために, 逆単語置換の周波数特性を利用した簡易アルゴリズムであるfgwsを提案する。
FGWSは、SST-2とIMDbの感情データセット上の敵の例を正確に検出し、RoBERTaベースの分類モデルに対して最大91.4%のF1検出スコアを得る。
我々は,最近提案された摂動識別フレームワークと比較し,最大13.0%のf1でそれを上回ることを示す。
関連論文リスト
- Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Less is More: Understanding Word-level Textual Adversarial Attack via n-gram Frequency Descend [34.58191062593758]
本研究の目的は,$n$-gramの周波数パターンを調べることで,単語レベルの攻撃を解釈することである。
包括的実験により,約90%のケースにおいて,単語レベルの攻撃は,$n$-gramの頻度が減少する事例の発生につながることが明らかとなった。
この発見は、モデルの堅牢性を高めるための簡単な戦略を示唆している。
論文 参考訳(メタデータ) (2023-02-06T05:11:27Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Block-Sparse Adversarial Attack to Fool Transformer-Based Text
Classifiers [49.50163349643615]
本稿では,変圧器を用いたテキスト分類器に対して,勾配に基づく逆攻撃を提案する。
実験結果から, 文の意味を抑えながら, GPT-2の精度を5%以下に抑えることができた。
論文 参考訳(メタデータ) (2022-03-11T14:37:41Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Randomized Substitution and Vote for Textual Adversarial Example
Detection [6.664295299367366]
一連の研究により、自然なテキスト処理モデルが敵の例に弱いことが示されている。
我々はランダム化代用投票法(RS&V)と呼ばれる新しいテキスト対逆例検出法を提案する。
3つのベンチマークデータセットに対する実証的な評価は、RS&Vが既存の検出方法よりも、テキストの逆例をよりうまく検出できることを示している。
論文 参考訳(メタデータ) (2021-09-13T04:17:58Z) - Experiments with adversarial attacks on text genres [0.0]
BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、多くのNLPタスクにおいてSOTA結果を示す。
そこで本研究では,最も重要な単語のいくつかを類似した単語に置き換えることができる埋め込み型アルゴリズムが,モデル予測にかなりの割合で影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:37:59Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Unsupervised Anomaly Detection From Semantic Similarity Scores [0.0]
本稿では,意味的類似度スコアを用いて異常検出を行う,シンプルで汎用的なフレームワークSemSADを提案する。
視覚領域における異常、新規性、アウト・オブ・ディストリビューション検出に対する従来のアプローチを大きなマージンで上回ることができる。
論文 参考訳(メタデータ) (2020-12-01T13:12:31Z) - WaveTransform: Crafting Adversarial Examples via Input Decomposition [69.01794414018603]
本稿では,低周波サブバンドと高周波サブバンドに対応する逆雑音を生成するWaveTransformを紹介する。
実験により,提案攻撃は防衛アルゴリズムに対して有効であり,CNN間での転送も可能であることが示された。
論文 参考訳(メタデータ) (2020-10-29T17:16:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。