論文の概要: Towards Building a Robust Toxicity Predictor
- arxiv url: http://arxiv.org/abs/2404.08690v1
- Date: Tue, 9 Apr 2024 22:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 19:11:58.061481
- Title: Towards Building a Robust Toxicity Predictor
- Title(参考訳): ロバストな毒性予測器の構築に向けて
- Authors: Dmitriy Bespalov, Sourav Bhabesh, Yi Xiang, Liutong Zhou, Yanjun Qi,
- Abstract要約: 本稿では, 有害なテキストサンプルを良性として予測するために, SOTAテキスト分類器に小さな単語レベルの摂動を導入し, 新たな逆攻撃であるtexttToxicTrapを提案する。
2つの新しい目標関数の設計により、ToxicTrapはマルチクラスおよびマルチラベルの有害言語検知器の弱点を特定することができる。
- 参考スコア(独自算出の注目度): 13.162016701556725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent NLP literature pays little attention to the robustness of toxicity language predictors, while these systems are most likely to be used in adversarial contexts. This paper presents a novel adversarial attack, \texttt{ToxicTrap}, introducing small word-level perturbations to fool SOTA text classifiers to predict toxic text samples as benign. ToxicTrap exploits greedy based search strategies to enable fast and effective generation of toxic adversarial examples. Two novel goal function designs allow ToxicTrap to identify weaknesses in both multiclass and multilabel toxic language detectors. Our empirical results show that SOTA toxicity text classifiers are indeed vulnerable to the proposed attacks, attaining over 98\% attack success rates in multilabel cases. We also show how a vanilla adversarial training and its improved version can help increase robustness of a toxicity detector even against unseen attacks.
- Abstract(参考訳): 最近のNLP文献は、毒性言語予測器の堅牢性にはほとんど注意を払わないが、これらのシステムは敵の文脈で使用される可能性が高い。
本稿では,SOTAテキスト分類器を騙し,有害なテキストサンプルを良し悪しとして予測するために,単語レベルの小さな摂動を導入した新たな攻撃法である「texttt{ToxicTrap}」を提案する。
ToxicTrapは、欲求に基づく検索戦略を利用して、有害な敵の高速かつ効果的な生成を可能にする。
2つの新しい目標関数の設計により、ToxicTrapはマルチクラスおよびマルチラベルの有害言語検知器の弱点を特定することができる。
実験の結果,SOTA毒性テキスト分類器は,提案した攻撃に対して脆弱であり,多ラベル症例では98%以上の攻撃成功率を達成できた。
また,バニラ逆行訓練とその改良版は,無害な攻撃に対しても毒性検知器の堅牢性を高めるのにどう役立つかを示す。
関連論文リスト
- TaeBench: Improving Quality of Toxic Adversarial Examples [10.768188905349874]
本稿では, 生成した有害な逆数例(TAE)の品質管理のためのアノテーションパイプラインを提案する。
我々は,TAEの品質要件を評価するために,モデルに基づく自動アノテーションと人間による品質検証を設計する。
我々は,TaeBenchがSOTA毒性量モデレーションモデルやサービスを効果的に移行攻撃できることを示す。
論文 参考訳(メタデータ) (2024-10-08T00:14:27Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and
Implicit Hate Speech Detection [33.715318646717385]
ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。
このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。
有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
論文 参考訳(メタデータ) (2022-03-17T17:57:56Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z) - Putting words into the system's mouth: A targeted attack on neural
machine translation using monolingual data poisoning [50.67997309717586]
本稿では、悪意のある敵が、バックトランスレーションを用いて訓練されたシステムのトレーニングセットに、モノリンガルテキストの少量の有毒サンプルを挿入する中毒攻撃を提案する。
このサンプルは、パドリング誤報のような特定の標的となる翻訳行動を引き起こすように設計されている。
有毒な例を作るための2つの方法を示し、トレーニングセットの0.02%にしか満たない少数の事例しか、攻撃を成功させるには不十分であることを示した。
論文 参考訳(メタデータ) (2021-07-12T08:07:09Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Fortifying Toxic Speech Detectors Against Veiled Toxicity [38.20984369410193]
本研究では,既存の有毒な音声検出装置を,大規模にラベル付けされた有毒なコーパスを使わずに強化する枠組みを提案する。
ほんの一握りのサンプルが、より偽装された犯罪の桁を表わすのに使われている。
論文 参考訳(メタデータ) (2020-10-07T04:43:48Z) - Poison Attacks against Text Datasets with Conditional Adversarially
Regularized Autoencoder [78.01180944665089]
本稿では,自然言語推論(NLI)とテキスト分類システムにおいて致命的な脆弱性を示す。
我々はNLPモデルに対する「バックドア中毒」攻撃を提示する。
論文 参考訳(メタデータ) (2020-10-06T13:03:49Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。