論文の概要: Don't sweat the small stuff, classify the rest: Sample Shielding to
protect text classifiers against adversarial attacks
- arxiv url: http://arxiv.org/abs/2205.01714v1
- Date: Tue, 3 May 2022 18:24:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 14:08:12.201321
- Title: Don't sweat the small stuff, classify the rest: Sample Shielding to
protect text classifiers against adversarial attacks
- Title(参考訳): 小さなものを汗まみれにし、他のものを分類する: テキスト分類器を敵の攻撃から守るためのサンプルシールド
- Authors: Jonathan Rusert, Padmini Srinivasan
- Abstract要約: ディープラーニング(DL)はテキスト分類に広く使われている。
攻撃者は、元の意味をそのままに保ちながら、分類器を誤解させる方法でテキストを変更する。
サンプルシールドという,新規で直感的な防衛戦略を提案する。
- 参考スコア(独自算出の注目度): 2.512827436728378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) is being used extensively for text classification.
However, researchers have demonstrated the vulnerability of such classifiers to
adversarial attacks. Attackers modify the text in a way which misleads the
classifier while keeping the original meaning close to intact. State-of-the-art
(SOTA) attack algorithms follow the general principle of making minimal changes
to the text so as to not jeopardize semantics. Taking advantage of this we
propose a novel and intuitive defense strategy called Sample Shielding. It is
attacker and classifier agnostic, does not require any reconfiguration of the
classifier or external resources and is simple to implement. Essentially, we
sample subsets of the input text, classify them and summarize these into a
final decision. We shield three popular DL text classifiers with Sample
Shielding, test their resilience against four SOTA attackers across three
datasets in a realistic threat setting. Even when given the advantage of
knowing about our shielding strategy the adversary's attack success rate is
<=10% with only one exception and often < 5%. Additionally, Sample Shielding
maintains near original accuracy when applied to original texts. Crucially, we
show that the `make minimal changes' approach of SOTA attackers leads to
critical vulnerabilities that can be defended against with an intuitive
sampling strategy.
- Abstract(参考訳): ディープラーニング(DL)はテキスト分類に広く使われている。
しかし、研究者はそのような分類器の敵の攻撃に対する脆弱性を実証した。
攻撃者は、元の意味をそのままに保ちながら、分類器を誤解させる方法でテキストを変更する。
State-of-the-art(SOTA)攻撃アルゴリズムは、セマンティクスを危険にさらすことなくテキストに最小限の変更を加えるという一般的な原則に従っている。
これを生かして,サンプルシールドという,新規で直感的な防衛戦略を提案する。
攻撃者や分類器に依存せず、分類器や外部リソースの再設定を必要とせず、実装も容易である。
基本的に、入力テキストのサブセットをサンプリングして分類し、それらを最終決定にまとめます。
一般的な3つのDLテキスト分類器をサンプルシールドで遮蔽し、3つのデータセットにわたる4つのSOTA攻撃に対して、現実的な脅威設定でレジリエンスをテストする。
遮蔽戦略を知る利点があるとしても、敵の攻撃成功率はたった1つの例外を除いて10%であり、しばしば5%である。
さらに、Sample Shieldingはオリジナルのテキストに適用した場合、ほぼオリジナルの精度を維持している。
重要なことは、SOTA攻撃者の「最小限の変更」アプローチは、直感的なサンプリング戦略で防御できる致命的な脆弱性をもたらすことを示している。
関連論文リスト
- OrderBkd: Textual backdoor attack through repositioning [0.0]
サードパーティのデータセットと事前トレーニングされた機械学習モデルは、NLPシステムに脅威をもたらす。
既存のバックドア攻撃は、トークンの挿入や文のパラフレーズなどのデータサンプルを毒殺する。
これまでの研究との大きな違いは、文中の2つの単語の配置をトリガーとして使うことです。
論文 参考訳(メタデータ) (2024-02-12T14:53:37Z) - Single Word Change is All You Need: Designing Attacks and Defenses for
Text Classifiers [12.167426402230229]
既存の手法によって生成された敵例のかなりの部分は、1つの単語だけを変える。
このシングルワード摂動脆弱性は、分類器の重大な弱点である。
本研究では,単一単語の摂動脆弱性を利用したSP-Attackを提案する。
また、学習にデータ拡張を適用してrhoを改善することを目的としたSP-Defenseを提案する。
論文 参考訳(メタデータ) (2024-01-30T17:30:44Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - TextDefense: Adversarial Text Detection based on Word Importance Entropy [38.632552667871295]
NLPモデルの新たな逆例検出フレームワークであるTextDefenseを提案する。
実験の結果,TextDefenseは異なるアーキテクチャ,データセット,アタックメソッドに適用可能であることがわかった。
我々はNLPの敵攻撃と防衛方法の原理に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-02-12T11:12:44Z) - Identifying Adversarial Attacks on Text Classifiers [32.958568467774704]
本稿では,その生成にどの方法が使われたかを決定するために,逆テキストを解析する。
最初のコントリビューションは、攻撃検出とラベル付けのための広範なデータセットです。
第2のコントリビューションとして、このデータセットを使用して、攻撃識別のための多くの分類器を開発し、ベンチマークします。
論文 参考訳(メタデータ) (2022-01-21T06:16:04Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Certified Robustness to Text Adversarial Attacks by Randomized [MASK] [39.07743913719665]
入力テキスト中の単語の一定割合をランダムにマスキングすることで,頑健な防御手法を提案する。
提案手法は,単語置換に基づく攻撃だけでなく,文字レベルの摂動も防御できる。
AGNEWSの5ワード、SST2データセットの2ワードの任意の摂動に堅牢であるために、50%以上のテキストの分類を証明できます。
論文 参考訳(メタデータ) (2021-05-08T16:59:10Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。