論文の概要: Data-Driven Mitigation of Adversarial Text Perturbation
- arxiv url: http://arxiv.org/abs/2202.09483v1
- Date: Sat, 19 Feb 2022 00:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-26 17:45:11.035365
- Title: Data-Driven Mitigation of Adversarial Text Perturbation
- Title(参考訳): 逆文摂動のデータ駆動緩和
- Authors: Rasika Bhalerao, Mohammad Al-Rubaie, Anand Bhaskar, Igor Markov
- Abstract要約: 本研究では,NLPモデルを逆テキスト摂動に対して堅牢にするための難読化パイプラインを提案する。
CW2Vの埋め込みは、文字nグラムに基づく埋め込みよりも、テキストの摂動に対してより堅牢であることを示す。
我々のパイプラインはエンゲージメントベイト分類を0.70から0.67AUCに分類し、敵対的なテキストの摂動を発生させる。
- 参考スコア(独自算出の注目度): 1.3649494534428743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social networks have become an indispensable part of our lives, with billions
of people producing ever-increasing amounts of text. At such scales, content
policies and their enforcement become paramount. To automate moderation,
questionable content is detected by Natural Language Processing (NLP)
classifiers. However, high-performance classifiers are hampered by misspellings
and adversarial text perturbations. In this paper, we classify intentional and
unintentional adversarial text perturbation into ten types and propose a
deobfuscation pipeline to make NLP models robust to such perturbations. We
propose Continuous Word2Vec (CW2V), our data-driven method to learn word
embeddings that ensures that perturbations of words have embeddings similar to
those of the original words. We show that CW2V embeddings are generally more
robust to text perturbations than embeddings based on character ngrams. Our
robust classification pipeline combines deobfuscation and classification, using
proposed defense methods and word embeddings to classify whether Facebook posts
are requesting engagement such as likes. Our pipeline results in engagement
bait classification that goes from 0.70 to 0.67 AUC with adversarial text
perturbation, while character ngram-based word embedding methods result in
downstream classification that goes from 0.76 to 0.64.
- Abstract(参考訳): ソーシャルネットワークは私たちの生活にとって欠かせない部分となり、何十億もの人々がテキストを制作している。
このような規模では、コンテンツポリシーとその施行が最重要となる。
モデレーションを自動化するために、自然言語処理(NLP)分類器によって疑わしい内容を検出する。
しかし、ハイパフォーマンスな分類器は、誤文や逆文の摂動によって妨げられる。
本稿では,意図的かつ意図的でない逆文摂動を10種類に分類し,そのような摂動に対してNLPモデルを堅牢化するための難読化パイプラインを提案する。
我々は,単語の摂動が元の単語と類似した埋め込みを持つことを保証する単語埋め込みを学習するためのデータ駆動手法である連続型word2vec(cw2v)を提案する。
我々は,CW2V埋め込みが文字nグラムに基づく埋め込みよりもテキスト摂動に強いことを示す。
当社のロバストな分類パイプラインは、難読化と分類を組み合わせることで、提案された防御メソッドと単語埋め込みを使用して、likeなどのエンゲージメントを要求するfacebookポストを分類します。
このパイプラインでは,逆テキストの摂動を伴う0.70から0.67 aucまでのエンゲージメントベイト分類を行い,文字ngramに基づく単語埋め込み手法では0.76から0.64までのダウンストリーム分類を行う。
関連論文リスト
- On Adversarial Examples for Text Classification by Perturbing Latent Representations [0.0]
テキスト分類における逆例に対して,ディープラーニングは脆弱であることを示す。
この弱点は、ディープラーニングがそれほど堅牢ではないことを示している。
我々は,テキスト分類器の頑健性を測定するフレームワークを,分類器の勾配を用いて構築する。
論文 参考訳(メタデータ) (2024-05-06T18:45:18Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Text-CRS: A Generalized Certified Robustness Framework against Textual Adversarial Attacks [39.51297217854375]
ランダムな平滑化に基づく自然言語処理(NLP)のための信頼性の高いロバストネスフレームワークであるText-CRSを提案する。
テキストCRSは、4つの異なる単語レベルの対数操作すべてに対処でき、精度が大幅に向上することを示す。
また,同義語置換攻撃に対する最先端認証よりも,単語レベルの4つの操作の精度と半径に関する最初のベンチマークも提供する。
論文 参考訳(メタデータ) (2023-07-31T13:08:16Z) - Integrating Bidirectional Long Short-Term Memory with Subword Embedding
for Authorship Attribution [2.3429306644730854]
マニフォールド語に基づくスタイリスティックマーカーは、著者帰属の本質的な問題に対処するために、ディープラーニング手法でうまく使われてきた。
提案手法は,CCAT50,IMDb62,Blog50,Twitter50の公営企業における最先端手法に対して実験的に評価された。
論文 参考訳(メタデータ) (2023-06-26T11:35:47Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - Enhancing Contrastive Learning with Noise-Guided Attack: Towards
Continual Relation Extraction in the Wild [57.468184469589744]
我々はtextbfContrative textbfLearning(NaCL) における textbfNoise-guided textbf attack という名前の耐雑音性コントラストフレームワークを開発する。
直接雑音除去や到達不能雑音回避と比較して,攻撃により与えられた雑音ラベルに一致するように特徴空間を変更する。
論文 参考訳(メタデータ) (2023-05-11T18:48:18Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - Context-based Virtual Adversarial Training for Text Classification with
Noisy Labels [1.9508698179748525]
本研究では,テキスト分類器が雑音ラベルに過度に収まらないよう,コンテキストベースの仮想対位訓練(ConVAT)を提案する。
従来の手法とは異なり,提案手法は入力よりも文脈レベルで逆学習を行う。
2種類のラベルノイズを持つ4つのテキスト分類データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-29T14:19:49Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Perturbing Inputs for Fragile Interpretations in Deep Natural Language
Processing [18.91129968022831]
解釈可能性の手法は、医療や金融などの高い分野における信頼できるNLPアプリケーションにとって堅牢である必要がある。
本稿では,入力テキスト上で単純な単語摂動を行うことで,解釈がどのように操作できるかを示す。
論文 参考訳(メタデータ) (2021-08-11T02:07:21Z) - Adversarial Semantic Collisions [129.55896108684433]
意味的衝突:意味論的に無関係だが、NLPモデルにより類似と判断されるテキストについて検討する。
我々は,意味的衝突を生成するための勾配に基づくアプローチを開発した。
パープレキシティに基づくフィルタリングを避けるために,意味的衝突を生成する方法を示す。
論文 参考訳(メタデータ) (2020-11-09T20:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。