論文の概要: Fortifying Toxic Speech Detectors Against Veiled Toxicity
- arxiv url: http://arxiv.org/abs/2010.03154v1
- Date: Wed, 7 Oct 2020 04:43:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 23:12:35.887218
- Title: Fortifying Toxic Speech Detectors Against Veiled Toxicity
- Title(参考訳): 有毒物に対する有毒音声検出装置の強化
- Authors: Xiaochuang Han, Yulia Tsvetkov
- Abstract要約: 本研究では,既存の有毒な音声検出装置を,大規模にラベル付けされた有毒なコーパスを使わずに強化する枠組みを提案する。
ほんの一握りのサンプルが、より偽装された犯罪の桁を表わすのに使われている。
- 参考スコア(独自算出の注目度): 38.20984369410193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern toxic speech detectors are incompetent in recognizing disguised
offensive language, such as adversarial attacks that deliberately avoid known
toxic lexicons, or manifestations of implicit bias. Building a large annotated
dataset for such veiled toxicity can be very expensive. In this work, we
propose a framework aimed at fortifying existing toxic speech detectors without
a large labeled corpus of veiled toxicity. Just a handful of probing examples
are used to surface orders of magnitude more disguised offenses. We augment the
toxic speech detector's training data with these discovered offensive examples,
thereby making it more robust to veiled toxicity while preserving its utility
in detecting overt toxicity.
- Abstract(参考訳): 現代の有毒な言語検出器は、故意に既知の有毒な語彙を避ける敵意攻撃や暗黙のバイアスの出現のような偽装した攻撃言語を認識するのに無能である。
このような毒物に対する大きな注釈付きデータセットを構築するのは非常にコストがかかる。
本研究では,既存の有毒な音声検出装置を,大規模にラベル付けされた有毒なコーパスを使わずに強化する枠組みを提案する。
ほんの一握りのサンプルが、偽装犯罪を表面化するために使われています。
本研究は, 有害な音声検出装置のトレーニングデータをこれらの攻撃的な例で強化し, 過度な毒性の検出に有効性を保ちながら, 防腐された毒性をより堅牢にする。
関連論文リスト
- Towards Building a Robust Toxicity Predictor [13.162016701556725]
本稿では, 有害なテキストサンプルを良性として予測するために, SOTAテキスト分類器に小さな単語レベルの摂動を導入し, 新たな逆攻撃であるtexttToxicTrapを提案する。
2つの新しい目標関数の設計により、ToxicTrapはマルチクラスおよびマルチラベルの有害言語検知器の弱点を特定することができる。
論文 参考訳(メタデータ) (2024-04-09T22:56:05Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Facilitating Fine-grained Detection of Chinese Toxic Language:
Hierarchical Taxonomy, Resources, and Benchmarks [18.44630180661091]
既存のデータセットには、有害な型や表現の詳細なアノテーションがない。
ポストの毒性を検出するために語彙的知識を導入することが重要である。
本稿では,中国語の有害な言語をきめ細かい検出を容易にする。
論文 参考訳(メタデータ) (2023-05-08T03:50:38Z) - Robust Conversational Agents against Imperceptible Toxicity Triggers [29.71051151620196]
我々は,会話エージェントに対する攻撃について,一貫性,関連性,流布性の観点から認識し難いものを提案する。
次に,攻撃を緩和するだけでなく,会話の流れの維持を図るような攻撃に対する防御機構を提案する。
論文 参考訳(メタデータ) (2022-05-05T01:48:39Z) - ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and
Implicit Hate Speech Detection [33.715318646717385]
ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。
このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。
有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
論文 参考訳(メタデータ) (2022-03-17T17:57:56Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。