論文の概要: TCAB: A Large-Scale Text Classification Attack Benchmark
- arxiv url: http://arxiv.org/abs/2210.12233v1
- Date: Fri, 21 Oct 2022 20:22:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 18:05:42.529027
- Title: TCAB: A Large-Scale Text Classification Attack Benchmark
- Title(参考訳): TCAB: 大規模テキスト分類攻撃ベンチマーク
- Authors: Kalyani Asthana, Zhouhang Xie, Wencong You, Adam Noack, Jonathan
Brophy, Sameer Singh, Daniel Lowd
- Abstract要約: テキスト分類攻撃ベンチマーク (TCAB) は、テキスト分類器に対する敵対的攻撃を分析し、理解し、検出し、ラベル付けするためのデータセットである。
TCABには150万の攻撃インスタンスが含まれており、英語の感情分析と虐待検出のために6つのソースデータセットでトレーニングされた3つの分類器をターゲットにした12の敵攻撃によって生成される。
攻撃の検出とラベリングの主要なタスクに加えて、Tabは攻撃のローカライゼーション、攻撃対象のラベリング、攻撃特性のキャラクタリゼーションにも使用できる。
- 参考スコア(独自算出の注目度): 36.102015445585785
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce the Text Classification Attack Benchmark (TCAB), a dataset for
analyzing, understanding, detecting, and labeling adversarial attacks against
text classifiers. TCAB includes 1.5 million attack instances, generated by
twelve adversarial attacks targeting three classifiers trained on six source
datasets for sentiment analysis and abuse detection in English. Unlike standard
text classification, text attacks must be understood in the context of the
target classifier that is being attacked, and thus features of the target
classifier are important as well. TCAB includes all attack instances that are
successful in flipping the predicted label; a subset of the attacks are also
labeled by human annotators to determine how frequently the primary semantics
are preserved. The process of generating attacks is automated, so that TCAB can
easily be extended to incorporate new text attacks and better classifiers as
they are developed. In addition to the primary tasks of detecting and labeling
attacks, TCAB can also be used for attack localization, attack target labeling,
and attack characterization. TCAB code and dataset are available at
https://react-nlp.github.io/tcab/.
- Abstract(参考訳): テキスト分類攻撃ベンチマーク(TCAB)は,テキスト分類に対する敵対的攻撃を分析し,理解し,検出し,ラベル付けするためのデータセットである。
TCABには150万の攻撃インスタンスが含まれており、英語の感情分析と虐待検出のために6つのソースデータセットでトレーニングされた3つの分類器を対象とした12の敵攻撃によって生成される。
標準的なテキスト分類とは異なり、テキスト攻撃は攻撃されているターゲット分類器のコンテキストで理解する必要があるため、ターゲット分類器の特徴も重要である。
TCABには、予測ラベルの反転に成功しているすべてのアタックインスタンスが含まれており、攻撃のサブセットは人間のアノテータによってラベル付けされ、プライマリセマンティクスの保存頻度が決定される。
攻撃生成プロセスは自動化されており、TCABを拡張して新しいテキストアタックとより優れた分類器を組み込むことができる。
攻撃の検出とラベリングの主要なタスクに加えて、Tabは攻撃のローカライゼーション、攻撃対象のラベリング、攻撃特性のキャラクタリゼーションにも使用できる。
tcabコードとデータセットはhttps://react-nlp.github.io/tcab/で入手できる。
関連論文リスト
- FCert: Certifiably Robust Few-Shot Classification in the Era of Foundation Models [38.019489232264796]
FCertは、データ中毒攻撃に対する最初の認証された防御法であり、数発の分類である。
1)攻撃なしでの分類精度を維持すること,2)データ中毒攻撃に対する既存の認証された防御能力を上回ること,3)効率的で汎用的なこと,である。
論文 参考訳(メタデータ) (2024-04-12T17:50:40Z) - OrderBkd: Textual backdoor attack through repositioning [0.0]
サードパーティのデータセットと事前トレーニングされた機械学習モデルは、NLPシステムに脅威をもたらす。
既存のバックドア攻撃は、トークンの挿入や文のパラフレーズなどのデータサンプルを毒殺する。
これまでの研究との大きな違いは、文中の2つの単語の配置をトリガーとして使うことです。
論文 参考訳(メタデータ) (2024-02-12T14:53:37Z) - Adversarial Clean Label Backdoor Attacks and Defenses on Text
Classification Systems [23.201773332458693]
クリーンラベル(CL)攻撃はNLPでは比較的未発見である。
CLアタックはラベルフリップ(LF)アタックよりもデータサニタイズや手動のレバリング手法に耐性がある。
敵がCL攻撃のデータ要求を20%以下に抑えることができることを示す。
論文 参考訳(メタデータ) (2023-05-31T07:23:46Z) - Attacking Important Pixels for Anchor-free Detectors [47.524554948433995]
物体検出に対する既存の敵攻撃は、アンカーベース検出器の攻撃に焦点を当てている。
本研究では,アンカーフリー検出器を指向した最初の対向攻撃を提案する。
提案手法は,オブジェクト検出と人間のポーズ推定の両タスクにおいて,最先端の攻撃性能と伝達性を実現する。
論文 参考訳(メタデータ) (2023-01-26T23:03:03Z) - Object-fabrication Targeted Attack for Object Detection [54.10697546734503]
物体検出の敵攻撃は 標的攻撃と未標的攻撃を含む。
新たなオブジェクトファブリケーションターゲット攻撃モードは、特定のターゲットラベルを持つ追加の偽オブジェクトをファブリケートする検出器を誤解させる可能性がある。
論文 参考訳(メタデータ) (2022-12-13T08:42:39Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Identifying Adversarial Attacks on Text Classifiers [32.958568467774704]
本稿では,その生成にどの方法が使われたかを決定するために,逆テキストを解析する。
最初のコントリビューションは、攻撃検出とラベル付けのための広範なデータセットです。
第2のコントリビューションとして、このデータセットを使用して、攻撃識別のための多くの分類器を開発し、ベンチマークします。
論文 参考訳(メタデータ) (2022-01-21T06:16:04Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Universal Adversarial Attacks with Natural Triggers for Text
Classification [30.74579821832117]
我々は、自然の英語のフレーズに近づきながら、分類システムを混乱させる敵攻撃を開発する。
我々の攻撃は、従来のモデルよりも識別が困難でありながら、分類タスクのモデル精度を効果的に低下させる。
論文 参考訳(メタデータ) (2020-05-01T01:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。