論文の概要: Arabic Synonym BERT-based Adversarial Examples for Text Classification
- arxiv url: http://arxiv.org/abs/2402.03477v1
- Date: Mon, 5 Feb 2024 19:39:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 18:16:11.960856
- Title: Arabic Synonym BERT-based Adversarial Examples for Text Classification
- Title(参考訳): アラビア語シノニム bert-based adversarial examples for text classification
- Authors: Norah Alshahrani, Saied Alshahrani, Esma Wali, Jeanna Matthews
- Abstract要約: 本稿では、アラビア語における敵対的攻撃に関する最初の単語レベル研究を紹介する。
我々は、現在最先端のテキスト分類モデルの頑健さを、アラビア語の敵対的攻撃に対して評価する。
新たに生成したアラビアの敵対的事例の様々なモデルへの転送可能性について検討し、防御機構の有効性について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text classification systems have been proven vulnerable to adversarial text
examples, modified versions of the original text examples that are often
unnoticed by human eyes, yet can force text classification models to alter
their classification. Often, research works quantifying the impact of
adversarial text attacks have been applied only to models trained in English.
In this paper, we introduce the first word-level study of adversarial attacks
in Arabic. Specifically, we use a synonym (word-level) attack using a Masked
Language Modeling (MLM) task with a BERT model in a black-box setting to assess
the robustness of the state-of-the-art text classification models to
adversarial attacks in Arabic. To evaluate the grammatical and semantic
similarities of the newly produced adversarial examples using our synonym
BERT-based attack, we invite four human evaluators to assess and compare the
produced adversarial examples with their original examples. We also study the
transferability of these newly produced Arabic adversarial examples to various
models and investigate the effectiveness of defense mechanisms against these
adversarial examples on the BERT models. We find that fine-tuned BERT models
were more susceptible to our synonym attacks than the other Deep Neural
Networks (DNN) models like WordCNN and WordLSTM we trained. We also find that
fine-tuned BERT models were more susceptible to transferred attacks. We,
lastly, find that fine-tuned BERT models successfully regain at least 2% in
accuracy after applying adversarial training as an initial defense mechanism.
- Abstract(参考訳): テキスト分類システムは、敵対的なテキスト例に弱いことが証明されており、元のテキスト例の修正版は、しばしば人間の目に気付かれず、テキスト分類モデルにそれらの分類を変更するよう強制することができる。
しばしば、逆境テキスト攻撃の影響を定量化する研究は、英語で訓練されたモデルにのみ適用されている。
本稿では,アラビア語における対人攻撃に関する最初の単語レベル研究を紹介する。
具体的には、アラビア語の敵対的攻撃に対する最先端のテキスト分類モデルの堅牢性を評価するために、ブラックボックス設定のbertモデルを用いたマスク言語モデリング(mlm)タスクを用いた同義語(単語レベル)攻撃を用いる。
同義語bertに基づく攻撃を用いて新たに生成した逆例の文法的・意味的類似性を評価するために,4人の人間エバブリエータを招き,生成された逆例を元の例と比較した。
また,新たに生成したアラビアの敵対例の様々なモデルへの転送可能性について検討し,BERTモデルに対する防衛機構の有効性について検討した。
細調整されたBERTモデルは、私たちが訓練したWordCNNやWordLSTMのような他のディープニューラルネットワーク(DNN)モデルよりも、私たちの同義語攻撃の影響を受けやすいことが分かりました。
また、細調整されたBERTモデルの方が攻撃の受けやすいことも判明した。
最後に,対戦訓練を初期防御機構として適用した後,細調整したBERTモデルにおいて,少なくとも2%の精度回復が得られた。
関連論文リスト
- Semantic Stealth: Adversarial Text Attacks on NLP Using Several Methods [0.0]
テキスト敵攻撃は、入力テキストを意図的に操作することで、モデルの予測を誤解させる。
本稿では,BERT,BERT-on-BERT,Fraud Bargain's Attack (FBA)について述べる。
PWWSは最も強力な敵として登場し、複数の評価シナリオで他のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-04-08T02:55:01Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Adversarial Training for Improving Model Robustness? Look at Both
Prediction and Interpretation [21.594361495948316]
本稿では,FLAT という新しい特徴レベルの対角訓練手法を提案する。
FLATは、グローバルな単語の重要性を学ぶために、変分ワードマスクをニューラルネットワークに組み込んでいる。
FLATが予測と解釈の両方において頑健性を向上させる効果を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-23T20:04:14Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Experiments with adversarial attacks on text genres [0.0]
BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、多くのNLPタスクにおいてSOTA結果を示す。
そこで本研究では,最も重要な単語のいくつかを類似した単語に置き換えることができる埋め込み型アルゴリズムが,モデル予測にかなりの割合で影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:37:59Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z) - BAE: BERT-based Adversarial Examples for Text Classification [9.188318506016898]
我々は,BERTマスマスキング言語モデルからコンテキスト摂動を用いて,敵の例を生成するブラックボックス攻撃であるBAEを提案する。
BAEは, 文法性やセマンティック・コヒーレンスを向上した逆例を生成することに加えて, より強力な攻撃を行うことを示す。
論文 参考訳(メタデータ) (2020-04-04T16:25:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。