論文の概要: Experiments with adversarial attacks on text genres
- arxiv url: http://arxiv.org/abs/2107.02246v1
- Date: Mon, 5 Jul 2021 19:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 07:36:20.145664
- Title: Experiments with adversarial attacks on text genres
- Title(参考訳): テキストジャンルに対する敵対的攻撃の実験
- Authors: Mikhail Lepekhin, Serge Sharoff
- Abstract要約: BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、多くのNLPタスクにおいてSOTA結果を示す。
そこで本研究では,最も重要な単語のいくつかを類似した単語に置き換えることができる埋め込み型アルゴリズムが,モデル予測にかなりの割合で影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural models based on pre-trained transformers, such as BERT or XLM-RoBERTa,
demonstrate SOTA results in many NLP tasks, including non-topical
classification, such as genre identification. However, often these approaches
exhibit low reliability to minor alterations of the test texts. A related
probelm concerns topical biases in the training corpus, for example, the
prevalence of words on a specific topic in a specific genre can trick the genre
classifier to recognise any text on this topic in this genre. In order to
mitigate the reliability problem, this paper investigates techniques for
attacking genre classifiers to understand the limitations of the transformer
models and to improve their performance. While simple text attacks, such as
those based on word replacement using keywords extracted by tf-idf, are not
capable of deceiving powerful models like XLM-RoBERTa, we show that
embedding-based algorithms which can replace some of the most ``significant''
words with words similar to them, for example, TextFooler, have the ability to
influence model predictions in a significant proportion of cases.
- Abstract(参考訳): BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、ジャンル識別などの非トピック分類を含む多くのNLPタスクにおいてSOTA結果を示す。
しかし、これらのアプローチはテストテキストの小さな変更に対して信頼性が低いことが多い。
関連するプローブlmは、トレーニングコーパスにおけるトピックバイアス、例えば、特定のジャンルにおける特定のトピックに対する単語の普及は、ジャンル分類器を騙して、このジャンルにおけるこのトピックに関するテキストを認識することができる。
信頼性問題を軽減するため,変圧器モデルの限界を理解し,性能を向上させるため,ジャンル分類器の攻撃手法を検討する。
tf-idfによって抽出されたキーワードを用いた単語置換に基づく単純なテキスト攻撃は、XLM-RoBERTaのような強力なモデルを識別することができないが、例えばTextFoolerのように、最も「重要な」単語を類似した単語で置き換えることができる埋め込みベースのアルゴリズムは、モデル予測にかなりの割合で影響を及ぼすことができることを示す。
関連論文リスト
- Attacking Misinformation Detection Using Adversarial Examples Generated by Language Models [0.0]
テキスト分類アルゴリズムのロバスト性をテストするために,逆例を生成するという課題について検討する。
我々は、攻撃者が試すことができるクエリ数に現実的な制限を設定することで、コンテンツモデレーションのシミュレーションに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-28T11:46:30Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Estimating Confidence of Predictions of Individual Classifiers and Their
Ensembles for the Genre Classification Task [0.0]
Genre IDは、非トピックテキスト分類のサブクラスである。
BERTやXLM-RoBERTaのような事前訓練されたトランスフォーマーに基づく神経モデルは、多くのNLPタスクにおいてSOTA結果を示す。
論文 参考訳(メタデータ) (2022-06-15T09:59:05Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - ShufText: A Simple Black Box Approach to Evaluate the Fragility of Text
Classification Models [0.0]
CNN、LSTM、Transformersに基づくディープラーニングアプローチは、テキスト分類における事実上のアプローチである。
これらのシステムは、分類に有用なテキストに現れる重要な単語に過度に依存していることを示す。
論文 参考訳(メタデータ) (2021-01-30T15:18:35Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial
Text Generation [20.27052525082402]
本稿では,制御可能な属性による逆テキストを生成する制御付き逆テキスト生成(CAT-Gen)モデルを提案する。
実世界のNLPデータセットを用いた実験により,本手法はより多種多様な逆数文を生成することができることが示された。
論文 参考訳(メタデータ) (2020-10-05T21:07:45Z) - Frequency-Guided Word Substitutions for Detecting Textual Adversarial
Examples [16.460051008283887]
我々は,CNN,LSTM,Transformerに基づく分類モデルに対する敵対攻撃が単語置換を行うことを示す。
本稿では,周波数誘導語置換法(FGWS)を提案する。
FGWS は,SST-2 と IMDb の感情データセット上での逆例を正確に検出することにより,高い性能を実現する。
論文 参考訳(メタデータ) (2020-04-13T12:11:36Z) - Adv-BERT: BERT is not robust on misspellings! Generating nature
adversarial samples on BERT [95.88293021131035]
しかし、悪意のある敵のインスタンスがしばしば存在するのではなく、テクトナチュラルなシナリオでモデルがどのように機能するかは定かではない。
この研究は、NLPにおける最先端のTransformerスタイルモデルであるBERTの、ノイズの多いデータを扱うための頑健さを体系的に探求する。
論文 参考訳(メタデータ) (2020-02-27T22:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。