論文の概要: TaeBench: Improving Quality of Toxic Adversarial Examples
- arxiv url: http://arxiv.org/abs/2410.05573v1
- Date: Tue, 8 Oct 2024 00:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 17:58:21.830012
- Title: TaeBench: Improving Quality of Toxic Adversarial Examples
- Title(参考訳): TaeBench: Toxic Adversarial Examples の品質向上
- Authors: Xuan Zhu, Dmitriy Bespalov, Liwen You, Ninad Kulkarni, Yanjun Qi,
- Abstract要約: 本稿では, 生成した有害な逆数例(TAE)の品質管理のためのアノテーションパイプラインを提案する。
我々は,TAEの品質要件を評価するために,モデルに基づく自動アノテーションと人間による品質検証を設計する。
我々は,TaeBenchがSOTA毒性量モデレーションモデルやサービスを効果的に移行攻撃できることを示す。
- 参考スコア(独自算出の注目度): 10.768188905349874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Toxicity text detectors can be vulnerable to adversarial examples - small perturbations to input text that fool the systems into wrong detection. Existing attack algorithms are time-consuming and often produce invalid or ambiguous adversarial examples, making them less useful for evaluating or improving real-world toxicity content moderators. This paper proposes an annotation pipeline for quality control of generated toxic adversarial examples (TAE). We design model-based automated annotation and human-based quality verification to assess the quality requirements of TAE. Successful TAE should fool a target toxicity model into making benign predictions, be grammatically reasonable, appear natural like human-generated text, and exhibit semantic toxicity. When applying these requirements to more than 20 state-of-the-art (SOTA) TAE attack recipes, we find many invalid samples from a total of 940k raw TAE attack generations. We then utilize the proposed pipeline to filter and curate a high-quality TAE dataset we call TaeBench (of size 264k). Empirically, we demonstrate that TaeBench can effectively transfer-attack SOTA toxicity content moderation models and services. Our experiments also show that TaeBench with adversarial training achieve significant improvements of the robustness of two toxicity detectors.
- Abstract(参考訳): 毒性テキスト検出器は、敵対的な例に弱い可能性がある。
既存の攻撃アルゴリズムは時間がかかり、しばしば無効または曖昧な敵の例を生成するため、現実世界の毒性コンテンツモデレーターの評価や改善にはあまり役に立たない。
本稿では, 生成した有害な逆数例(TAE)の品質管理のためのアノテーションパイプラインを提案する。
我々は,TAEの品質要件を評価するために,モデルに基づく自動アノテーションと人間による品質検証を設計する。
成功したTAEは、標的の毒性モデルを騙して良質な予測をし、文法的に合理的で、人為的なテキストのように自然に現れ、意味的な毒性を示すべきである。
これらの要件を20以上のSOTA(State-of-the-art)TAE攻撃レシピに適用すると、合計940万のTAE攻撃世代から無効なサンプルが多数見つかる。
次に、提案されたパイプラインを使用して、TaeBench(サイズ264k)と呼ばれる高品質なTAEデータセットをフィルタリングし、キュレートします。
実証実験により,TaeBenchはSOTA毒性量モデレーションモデルやサービスを効果的にトランスファー・アタックできることを示した。
また,TeeBenchは2つの毒性検出器の堅牢性を大幅に向上することを示した。
関連論文リスト
- On the Adversarial Risk of Test Time Adaptation: An Investigation into Realistic Test-Time Data Poisoning [49.17494657762375]
テスト時間適応(TTA)は、テストデータを使用して推論段階でモデルの重みを更新し、一般化を強化する。
既存の研究では、TTAが逆方向検体で更新されると、良性検体の性能が低下することが示されている。
そこで本研究では, 良性試料にアクセスすることなく, 有毒試料を効果的かつ現実的に生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T01:29:19Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Towards Building a Robust Toxicity Predictor [13.162016701556725]
本稿では, 有害なテキストサンプルを良性として予測するために, SOTAテキスト分類器に小さな単語レベルの摂動を導入し, 新たな逆攻撃であるtexttToxicTrapを提案する。
2つの新しい目標関数の設計により、ToxicTrapはマルチクラスおよびマルチラベルの有害言語検知器の弱点を特定することができる。
論文 参考訳(メタデータ) (2024-04-09T22:56:05Z) - Fine-Grained Detoxification via Instance-Level Prefixes for Large
Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。
FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。
我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文 参考訳(メタデータ) (2024-02-23T09:04:48Z) - Adding Instructions during Pretraining: Effective Way of Controlling
Toxicity in Language Models [29.505176809305095]
本稿では,その実用性を損なうことなく,モデル毒性を大幅に低減する2つの新しい事前学習データ拡張戦略を提案する。
この2つの戦略は,(1)MEDA:メタデータとして生毒性スコアを付加し,(2)INST:それらの毒性を示すサンプルに指示を加えることである。
以上の結果から,最も優れた性能戦略(INST)は,5つのベンチマークNLPタスクの精度を維持しつつ,毒性の確率を61%まで大幅に低下させることが示唆された。
論文 参考訳(メタデータ) (2023-02-14T23:00:42Z) - Adversarial Attacks and Defense for Non-Parametric Two-Sample Tests [73.32304304788838]
本稿では,非パラメトリックTSTの障害モードを逆攻撃により系統的に明らかにする。
TST非依存的な攻撃を可能にするために,異なる種類のテスト基準を協調的に最小化するアンサンブル攻撃フレームワークを提案する。
そこで本研究では,TSTの強化のために,逆対を反復的に生成し,深層カーネルを訓練する最大最小最適化を提案する。
論文 参考訳(メタデータ) (2022-02-07T11:18:04Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - Poison Attacks against Text Datasets with Conditional Adversarially
Regularized Autoencoder [78.01180944665089]
本稿では,自然言語推論(NLI)とテキスト分類システムにおいて致命的な脆弱性を示す。
我々はNLPモデルに対する「バックドア中毒」攻撃を提示する。
論文 参考訳(メタデータ) (2020-10-06T13:03:49Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。