論文の概要: ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and
Implicit Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2203.09509v1
- Date: Thu, 17 Mar 2022 17:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 15:13:59.037753
- Title: ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and
Implicit Hate Speech Detection
- Title(参考訳): toxigen: 敵意と暗黙のヘイトスピーチ検出のための大規模マシン生成データセット
- Authors: Thomas Hartvigsen, Saadia Gabriel, Hamid Palangi, Maarten Sap,
Dipankar Ray, Ece Kamar
- Abstract要約: ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。
このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。
有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
- 参考スコア(独自算出の注目度): 33.715318646717385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Toxic language detection systems often falsely flag text that contains
minority group mentions as toxic, as those groups are often the targets of
online hate. Such over-reliance on spurious correlations also causes systems to
struggle with detecting implicitly toxic language. To help mitigate these
issues, we create ToxiGen, a new large-scale and machine-generated dataset of
274k toxic and benign statements about 13 minority groups. We develop a
demonstration-based prompting framework and an adversarial
classifier-in-the-loop decoding method to generate subtly toxic and benign text
with a massive pretrained language model. Controlling machine generation in
this way allows ToxiGen to cover implicitly toxic text at a larger scale, and
about more demographic groups, than previous resources of human-written text.
We conduct a human evaluation on a challenging subset of ToxiGen and find that
annotators struggle to distinguish machine-generated text from human-written
language. We also find that 94.5% of toxic examples are labeled as hate speech
by human annotators. Using three publicly-available datasets, we show that
finetuning a toxicity classifier on our data improves its performance on
human-written data substantially. We also demonstrate that ToxiGen can be used
to fight machine-generated toxicity as finetuning improves the classifier
significantly on our evaluation subset.
- Abstract(参考訳): 有害な言語検出システムは、少数派のグループが言及するテキストが有害であると誤って警告することが多い。
このようなスプリアス相関への過度な依存はまた、システムは暗黙の有害な言語を検出するのに苦労する。
これらの問題を緩和するために、13の少数グループに関する274kの有毒で良質なステートメントからなる、新しい大規模でマシン生成データセットであるToxiGenを作成します。
そこで,本研究では,実演に基づくプロンプトフレームワークと,ループ内デコード手法を開発し,膨大な事前学習言語モデルを用いて低毒性・良性テキストを生成する。
このようにマシン生成を制御することで、ToxiGenは人間のテキストの以前のリソースよりも、暗黙的に有毒なテキストを大規模にカバーし、さらに人口集団をカバーできる。
toxigenの難解なサブセットについて人間による評価を行い,機械生成テキストと人文言語との区別が困難であることを示す。
また、有毒な例の94.5%はヘイトスピーチと分類されている。
3つの公開データセットを用いて,我々のデータに対する毒性分類器の微調整により,人文データに対する性能が大幅に向上することを示す。
また, 微調整により評価サブセットの分類精度が大幅に向上するため, トキシゲンを機械生成毒性との戦いに使用できることを示した。
関連論文リスト
- On the Role of Speech Data in Reducing Toxicity Detection Bias [22.44133159647888]
マルチリンガルな MuTox データセットに対して,高品質なグループアノテーションセットを作成する。
次に、これらのアノテーションを利用して、音声およびテキストに基づく毒性分類器を体系的に比較する。
以上の結果から,推測中の音声データへのアクセスは,グループ言及に対する偏見の低減に役立つことが示唆された。
論文 参考訳(メタデータ) (2024-11-12T19:26:43Z) - Towards Building a Robust Toxicity Predictor [13.162016701556725]
本稿では, 有害なテキストサンプルを良性として予測するために, SOTAテキスト分類器に小さな単語レベルの摂動を導入し, 新たな逆攻撃であるtexttToxicTrapを提案する。
2つの新しい目標関数の設計により、ToxicTrapはマルチクラスおよびマルチラベルの有害言語検知器の弱点を特定することができる。
論文 参考訳(メタデータ) (2024-04-09T22:56:05Z) - ToXCL: A Unified Framework for Toxic Speech Detection and Explanation [3.803993344850168]
ToXCLは暗黙の有毒音声の検出と説明のための統合されたフレームワークである。
ToXCLは、新しい最先端の有効性を実現し、ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2024-03-25T12:21:38Z) - Parameter-Efficient Detoxification with Contrastive Decoding [78.5124331048714]
Detoxification Generator (DETOXIGEN) は、不要なスタイルから退避する推論時間アルゴリズムである。
実際の生成では、トレーニングされたデトキシファイタを使用して、生成元が各デコードステップでコントラストする好ましくないトークンを生成する。
生成品質を損なうことなく,従来のデトキシフィケーション指標のアプローチを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-13T01:46:20Z) - ToViLaG: Your Visual-Language Generative Model is Also An Evildoer [36.60526586838288]
近年の大規模ビジュアルランゲージ生成モデル(VLGM)は,マルチモーダル画像/テキスト生成において前例のない改善を実現している。
これらのモデルはまた、攻撃的なテキストやポルノ画像などの有害なコンテンツを生成し、重大な倫理的リスクを生じさせる可能性がある。
この研究は、様々なVLGMにまたがる毒性生成と毒性データへの感受性の妥当性を掘り下げるものである。
論文 参考訳(メタデータ) (2023-12-13T08:25:07Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Constructing Highly Inductive Contexts for Dialogue Safety through
Controllable Reverse Generation [65.48908724440047]
そこで本稿では,ある応答に条件付けされた逆コンテキストを構築するために,エンフレバース生成と呼ばれる手法を提案する。
我々は,Blender,DialoGPT,Plato2の3種類の事前訓練済み対話モデルをテストする。
論文 参考訳(メタデータ) (2022-12-04T12:23:41Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。