論文の概要: Attacking Text Classifiers via Sentence Rewriting Sampler
- arxiv url: http://arxiv.org/abs/2104.08453v1
- Date: Sat, 17 Apr 2021 05:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:15:55.465524
- Title: Attacking Text Classifiers via Sentence Rewriting Sampler
- Title(参考訳): 文書き換えサンプリングによるテキスト分類器の攻撃
- Authors: Lei Xu, Kalyan Veeramachaneni
- Abstract要約: general sentence rewriting sampler(srs)フレームワークは、条件付きで有意義な文を生成することができる。
本手法は,意味的類似度と文質を高く保ちつつ,複数の方法で原文を効果的に書き換えることができる。
提案手法は,7つのデータセットのうち4つで攻撃成功率を向上し,7つのデータセットの文質も大幅に向上した。
- 参考スコア(独自算出の注目度): 12.25764838264699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most adversarial attack methods on text classification are designed to change
the classifier's prediction by modifying few words or characters. Few try to
attack classifiers by rewriting a whole sentence, due to the difficulties
inherent in sentence-level rephrasing and the problem of maintaining high
semantic similarity and sentence quality.
To tackle this problem, we design a general sentence rewriting sampler (SRS)
framework, which can conditionally generate meaningful sentences. Then we
customize SRS to attack text classification models. Our method can effectively
rewrite the original sentence in multiple ways while maintaining high semantic
similarity and good sentence quality. Experimental results show that many of
these rewritten sentences are misclassified by the classifier. Our method
achieves a better attack success rate on 4 out of 7 datasets, as well as
significantly better sentence quality on all 7 datasets.
- Abstract(参考訳): テキスト分類におけるほとんどの逆攻撃方法は、少数の単語や文字を変更することで分類器の予測を変更するように設計されている。
文レベルの再現に固有の困難と、高い意味的類似性と文の品質を維持する問題のために、文全体を書き換えることで分類器を攻撃しようとする試みはほとんどない。
この問題に対処するため、我々は意味のある文を条件付きで生成できる汎用文書き換えサンプリング(SRS)フレームワークを設計する。
次に、SRSをカスタマイズしてテキスト分類モデルを攻撃する。
本手法は,意味的類似度と文質を高く保ちつつ,複数の方法で原文を効果的に書き換えることができる。
実験の結果,これらの書き換え文の多くは分類器によって誤分類されていることがわかった。
提案手法は,7つのデータセットのうち4つで攻撃成功率を向上し,7つのデータセットの文質も大幅に向上した。
関連論文リスト
- On Adversarial Examples for Text Classification by Perturbing Latent Representations [0.0]
テキスト分類における逆例に対して,ディープラーニングは脆弱であることを示す。
この弱点は、ディープラーニングがそれほど堅牢ではないことを示している。
我々は,テキスト分類器の頑健性を測定するフレームワークを,分類器の勾配を用いて構築する。
論文 参考訳(メタデータ) (2024-05-06T18:45:18Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Single Word Change is All You Need: Designing Attacks and Defenses for
Text Classifiers [12.167426402230229]
既存の手法によって生成された敵例のかなりの部分は、1つの単語だけを変える。
このシングルワード摂動脆弱性は、分類器の重大な弱点である。
本研究では,単一単語の摂動脆弱性を利用したSP-Attackを提案する。
また、学習にデータ拡張を適用してrhoを改善することを目的としたSP-Defenseを提案する。
論文 参考訳(メタデータ) (2024-01-30T17:30:44Z) - SenTest: Evaluating Robustness of Sentence Encoders [0.4194295877935868]
本研究は文エンコーダの堅牢性を評価することに焦点を当てる。
我々はその堅牢性を評価するためにいくつかの敵攻撃を用いる。
実験結果は文エンコーダの堅牢性を強く損なう。
論文 参考訳(メタデータ) (2023-11-29T15:21:35Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Clustering and Network Analysis for the Embedding Spaces of Sentences
and Sub-Sentences [69.3939291118954]
本稿では,文とサブ文の埋め込みを対象とする包括的クラスタリングとネットワーク解析について検討する。
その結果,1つの手法が最もクラスタリング可能な埋め込みを生成することがわかった。
一般に、スパン部分文の埋め込みは、原文よりもクラスタリング特性が優れている。
論文 参考訳(メタデータ) (2021-10-02T00:47:35Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - Rewriting Meaningful Sentences via Conditional BERT Sampling and an
application on fooling text classifiers [11.49508308643065]
テキスト分類器を欺くように設計された敵攻撃法は、いくつかの単語や文字を変更することで、テキスト分類器の予測を変更する。
文レベルの言い直しに固有の難しさや、正統な書き直し基準を設定することの難しさから、文全体を書き換えて分類子を攻撃しようとする者はほとんどいない。
本稿では,文レベルの書き換えによる逆例作成の問題について検討する。
我々は文レベルの脅威モデルと呼ばれる新しい修正基準を提案し、この基準は単語レベルの変更と文レベルの変更の両方を可能にし、意味的類似性と2つの次元で独立に調整できる。
論文 参考訳(メタデータ) (2020-10-22T17:03:13Z) - Elephant in the Room: An Evaluation Framework for Assessing Adversarial
Examples in NLP [24.661335236627053]
逆の例は、機械学習モデルが常に誤分類している小さな摂動によって変換された入力である。
本稿では,自動評価指標と人的評価ガイドラインからなる評価フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-22T00:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。