論文の概要: Using BERT Encoding to Tackle the Mad-lib Attack in SMS Spam Detection
- arxiv url: http://arxiv.org/abs/2107.06400v1
- Date: Tue, 13 Jul 2021 21:17:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:17:10.903111
- Title: Using BERT Encoding to Tackle the Mad-lib Attack in SMS Spam Detection
- Title(参考訳): bertエンコーディングを用いたsmsスパム検出におけるmad-lib攻撃
- Authors: Sergio Rojas-Galeano
- Abstract要約: GoogleのBERTのような単語の意味や文脈に敏感な言語モデルが、この敵対的攻撃を克服するのに有用かどうかを検討する。
5572のSMSスパムメッセージのデータセットを用いて,まず検出性能の基準を確立した。
そして、これらのメッセージに含まれる語彙のシソーラスを構築し、Mad-lib攻撃実験をセットアップした。
その結果、従来のモデルは元のデータセットで94%のバランス精度(BA)を達成したのに対し、BERTモデルは96%を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: One of the stratagems used to deceive spam filters is to substitute vocables
with synonyms or similar words that turn the message unrecognisable by the
detection algorithms. In this paper we investigate whether the recent
development of language models sensitive to the semantics and context of words,
such as Google's BERT, may be useful to overcome this adversarial attack
(called "Mad-lib" as per the word substitution game). Using a dataset of 5572
SMS spam messages, we first established a baseline of detection performance
using widely known document representation models (BoW and TFIDF) and the novel
BERT model, coupled with a variety of classification algorithms (Decision Tree,
kNN, SVM, Logistic Regression, Naive Bayes, Multilayer Perceptron). Then, we
built a thesaurus of the vocabulary contained in these messages, and set up a
Mad-lib attack experiment in which we modified each message of a held out
subset of data (not used in the baseline experiment) with different rates of
substitution of original words with synonyms from the thesaurus. Lastly, we
evaluated the detection performance of the three representation models (BoW,
TFIDF and BERT) coupled with the best classifier from the baseline experiment
(SVM). We found that the classic models achieved a 94% Balanced Accuracy (BA)
in the original dataset, whereas the BERT model obtained 96%. On the other
hand, the Mad-lib attack experiment showed that BERT encodings manage to
maintain a similar BA performance of 96% with an average substitution rate of
1.82 words per message, and 95% with 3.34 words substituted per message. In
contrast, the BA performance of the BoW and TFIDF encoders dropped to chance.
These results hint at the potential advantage of BERT models to combat these
type of ingenious attacks, offsetting to some extent for the inappropriate use
of semantic relationships in language.
- Abstract(参考訳): スパムフィルターを欺くために使われる戦略の一つは、検出アルゴリズムによってメッセージが無視されるような同義語または類似の単語で挑発性を置き換えることである。
本稿では,Google の BERT のような単語の意味や文脈に敏感な言語モデルの最近の開発が,この敵対的攻撃を克服するのに有用かどうかを考察する(置換ゲームでは "Mad-lib" と呼ぶ)。
5572のsmsスパムメッセージのデータセットを用いて,広く知られている文書表現モデル(bow,tfidf)と新しいbertモデル(decision tree, knn, svm, logistic regression, naive bayes, multilayer perceptron)を用いた検出性能のベースラインを確立した。
そして、これらのメッセージに含まれる語彙のシソーラスを構築し、(ベースライン実験では使われない)保持されたデータのサブセットのそれぞれのメッセージをシソーラスとシソーラスのシノニムの異なる元の単語の置換率で修正する、マッドリブ攻撃実験(mad-lib attack experiment)を設定した。
最後に, 3つの表現モデル (BoW, TFIDF, BERT) と, ベースライン実験 (SVM) の最適分類器の組み合わせによる検出性能を評価した。
その結果、従来のモデルは元のデータセットで94%のバランス精度(BA)を達成したが、BERTモデルは96%を得た。
一方、Mad-lib攻撃実験では、BERTエンコーディングは、メッセージごとの平均置換率1.82ワード、メッセージごとの置換率3.34ワードの95%で、同様のBA性能を96%維持することを示した。
対照的に、バウとtfidfエンコーダのba性能は、偶然に低下した。
これらの結果は、言語における意味的関係の不適切な使用に対して、BERTモデルがこのような創発的な攻撃に対処する可能性を示している。
関連論文リスト
- Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - ArabGlossBERT: Fine-Tuning BERT on Context-Gloss Pairs for WSD [0.0]
本稿では,アラビア語単語センス曖昧化(WSD)のためのBERTモデルについて述べる。
ラベル付きアラビア・コンテクスト・グロス・ペアのデータセットを構築した。
各ペアはTrueまたはFalseとラベル付けされ、各コンテキストのターゲット語が識別され、注釈が付けられた。
論文 参考訳(メタデータ) (2022-05-19T16:47:18Z) - Offensive Language Detection with BERT-based models, By Customizing
Attention Probabilities [0.0]
本稿では,攻撃言語検出タスクにおけるBERTモデルの性能向上手法を提案する。
我々は、注意マスクの入力を変更して、より効果的な単語埋め込みを作成することにより、注意確率をカスタマイズする。
最も良くなったのは、英語とペルシア語でそれぞれ2%と10%であった。
論文 参考訳(メタデータ) (2021-10-11T10:23:44Z) - BERT is Robust! A Case Against Synonym-Based Adversarial Examples in
Text Classification [8.072745157605777]
BERTに対する4つの単語置換に基づく攻撃について検討する。
彼らの成功は主に、貧弱なデータをモデルに供給することに基づいている。
追加の処理後ステップは、最先端攻撃の成功率を5%以下に下げる。
論文 参考訳(メタデータ) (2021-09-15T16:15:16Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - FireBERT: Hardening BERT-based classifiers against adversarial attack [0.5156484100374058]
FireBERTは、TextFoolerスタイルの単語摂動に対して強化された3つの概念的NLP分類器のセットである。
本稿では, 合成データ生成装置を併用して, 製造前の95%の対向試料を保護し, 高い効率で処理する手法を提案する。
本研究では, BERT ベースのモデルに対して, 正規ベンチマークの精度を著しく低下させることなく, 敵攻撃時の精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-08-10T15:43:28Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。