論文の概要: Don't sweat the small stuff, classify the rest: Sample Shielding to
protect text classifiers against adversarial attacks
- arxiv url: http://arxiv.org/abs/2205.01714v1
- Date: Tue, 3 May 2022 18:24:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 14:08:12.201321
- Title: Don't sweat the small stuff, classify the rest: Sample Shielding to
protect text classifiers against adversarial attacks
- Title(参考訳): 小さなものを汗まみれにし、他のものを分類する: テキスト分類器を敵の攻撃から守るためのサンプルシールド
- Authors: Jonathan Rusert, Padmini Srinivasan
- Abstract要約: ディープラーニング(DL)はテキスト分類に広く使われている。
攻撃者は、元の意味をそのままに保ちながら、分類器を誤解させる方法でテキストを変更する。
サンプルシールドという,新規で直感的な防衛戦略を提案する。
- 参考スコア(独自算出の注目度): 2.512827436728378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) is being used extensively for text classification.
However, researchers have demonstrated the vulnerability of such classifiers to
adversarial attacks. Attackers modify the text in a way which misleads the
classifier while keeping the original meaning close to intact. State-of-the-art
(SOTA) attack algorithms follow the general principle of making minimal changes
to the text so as to not jeopardize semantics. Taking advantage of this we
propose a novel and intuitive defense strategy called Sample Shielding. It is
attacker and classifier agnostic, does not require any reconfiguration of the
classifier or external resources and is simple to implement. Essentially, we
sample subsets of the input text, classify them and summarize these into a
final decision. We shield three popular DL text classifiers with Sample
Shielding, test their resilience against four SOTA attackers across three
datasets in a realistic threat setting. Even when given the advantage of
knowing about our shielding strategy the adversary's attack success rate is
<=10% with only one exception and often < 5%. Additionally, Sample Shielding
maintains near original accuracy when applied to original texts. Crucially, we
show that the `make minimal changes' approach of SOTA attackers leads to
critical vulnerabilities that can be defended against with an intuitive
sampling strategy.
- Abstract(参考訳): ディープラーニング(DL)はテキスト分類に広く使われている。
しかし、研究者はそのような分類器の敵の攻撃に対する脆弱性を実証した。
攻撃者は、元の意味をそのままに保ちながら、分類器を誤解させる方法でテキストを変更する。
State-of-the-art(SOTA)攻撃アルゴリズムは、セマンティクスを危険にさらすことなくテキストに最小限の変更を加えるという一般的な原則に従っている。
これを生かして,サンプルシールドという,新規で直感的な防衛戦略を提案する。
攻撃者や分類器に依存せず、分類器や外部リソースの再設定を必要とせず、実装も容易である。
基本的に、入力テキストのサブセットをサンプリングして分類し、それらを最終決定にまとめます。
一般的な3つのDLテキスト分類器をサンプルシールドで遮蔽し、3つのデータセットにわたる4つのSOTA攻撃に対して、現実的な脅威設定でレジリエンスをテストする。
遮蔽戦略を知る利点があるとしても、敵の攻撃成功率はたった1つの例外を除いて10%であり、しばしば5%である。
さらに、Sample Shieldingはオリジナルのテキストに適用した場合、ほぼオリジナルの精度を維持している。
重要なことは、SOTA攻撃者の「最小限の変更」アプローチは、直感的なサンプリング戦略で防御できる致命的な脆弱性をもたらすことを示している。
関連論文リスト
- Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - OrderBkd: Textual backdoor attack through repositioning [0.0]
サードパーティのデータセットと事前トレーニングされた機械学習モデルは、NLPシステムに脅威をもたらす。
既存のバックドア攻撃は、トークンの挿入や文のパラフレーズなどのデータサンプルを毒殺する。
これまでの研究との大きな違いは、文中の2つの単語の配置をトリガーとして使うことです。
論文 参考訳(メタデータ) (2024-02-12T14:53:37Z) - Single Word Change is All You Need: Designing Attacks and Defenses for
Text Classifiers [12.167426402230229]
既存の手法によって生成された敵例のかなりの部分は、1つの単語だけを変える。
このシングルワード摂動脆弱性は、分類器の重大な弱点である。
本研究では,単一単語の摂動脆弱性を利用したSP-Attackを提案する。
また、学習にデータ拡張を適用してrhoを改善することを目的としたSP-Defenseを提案する。
論文 参考訳(メタデータ) (2024-01-30T17:30:44Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - TextDefense: Adversarial Text Detection based on Word Importance Entropy [38.632552667871295]
NLPモデルの新たな逆例検出フレームワークであるTextDefenseを提案する。
実験の結果,TextDefenseは異なるアーキテクチャ,データセット,アタックメソッドに適用可能であることがわかった。
我々はNLPの敵攻撃と防衛方法の原理に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-02-12T11:12:44Z) - Identifying Adversarial Attacks on Text Classifiers [32.958568467774704]
本稿では,その生成にどの方法が使われたかを決定するために,逆テキストを解析する。
最初のコントリビューションは、攻撃検出とラベル付けのための広範なデータセットです。
第2のコントリビューションとして、このデータセットを使用して、攻撃識別のための多くの分類器を開発し、ベンチマークします。
論文 参考訳(メタデータ) (2022-01-21T06:16:04Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Certified Robustness to Text Adversarial Attacks by Randomized [MASK] [39.07743913719665]
入力テキスト中の単語の一定割合をランダムにマスキングすることで,頑健な防御手法を提案する。
提案手法は,単語置換に基づく攻撃だけでなく,文字レベルの摂動も防御できる。
AGNEWSの5ワード、SST2データセットの2ワードの任意の摂動に堅牢であるために、50%以上のテキストの分類を証明できます。
論文 参考訳(メタデータ) (2021-05-08T16:59:10Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。