論文の概要: Toxicity Detection with Generative Prompt-based Inference
- arxiv url: http://arxiv.org/abs/2205.12390v1
- Date: Tue, 24 May 2022 22:44:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 01:28:50.142503
- Title: Toxicity Detection with Generative Prompt-based Inference
- Title(参考訳): 生成プロンプトに基づく推論による毒性検出
- Authors: Yau-Shian Wang and Yingshan Chang
- Abstract要約: 言語モデル(LM)は、望ましくない内容を含むコーパスで訓練され、バイアスや毒性を示す能力を持つことは、長年にわたって知られていたリスクである。
本研究では,ゼロショットプロンプトによる毒性検出の生成的変異について検討し,プロンプトエンジニアリングに関する総合的な試行を行った。
- 参考スコア(独自算出の注目度): 3.9741109244650823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the subtleness, implicity, and different possible interpretations
perceived by different people, detecting undesirable content from text is a
nuanced difficulty. It is a long-known risk that language models (LMs), once
trained on corpus containing undesirable content, have the power to manifest
biases and toxicity. However, recent studies imply that, as a remedy, LMs are
also capable of identifying toxic content without additional fine-tuning.
Prompt-methods have been shown to effectively harvest this surprising
self-diagnosing capability. However, existing prompt-based methods usually
specify an instruction to a language model in a discriminative way. In this
work, we explore the generative variant of zero-shot prompt-based toxicity
detection with comprehensive trials on prompt engineering. We evaluate on three
datasets with toxicity labels annotated on social media posts. Our analysis
highlights the strengths of our generative classification approach both
quantitatively and qualitatively. Interesting aspects of self-diagnosis and its
ethical implications are discussed.
- Abstract(参考訳): 人によって知覚される微妙さ、暗黙性、そして異なる可能な解釈のため、テキストから望ましくない内容を検出することは困難である。
かつて好ましくない内容を含むコーパスで訓練された言語モデル(lms)が、バイアスや毒性を顕示する能力を持つのは、長年のリスクである。
しかし、最近の研究は、治療薬として、LMは追加の微調整なしで有毒な物質を識別できることを示している。
プロンプトメソッドは、この驚くべき自己診断能力を効果的に得ることが示されている。
しかし、既存のプロンプトベースのメソッドは通常、言語モデルへの命令を判別的に指定する。
本研究では,ゼロショットプロンプトによる毒性検出のジェネレーティブな変種を,プロンプトエンジニアリングを包括的に試行して検討する。
ソーシャルメディアの投稿にアノテートされた毒性ラベル付きデータセットを3つ評価した。
本分析では, 定量的かつ定性的に生成的分類手法の強みを強調した。
自己診断の興味深い側面とその倫理的意味について論じる。
関連論文リスト
- Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Detoxifying Text with MaRCo: Controllable Revision with Experts and
Anti-Experts [57.38912708076231]
本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。
MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。
我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
論文 参考訳(メタデータ) (2022-12-20T18:50:00Z) - Leashing the Inner Demons: Self-Detoxification for Language Models [13.576289320208511]
言語モデル(LM)は、トレーニング中に見られる有害な言語を再現(または増幅)することができる。
我々は、プロンプト、復号化戦略、学習コーパスが出力に与える影響を分析する。
本稿では,言語モデルに対して,新たな大きなコーパスや外部識別器を使わずに「デトックス化」を行うための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-06T23:55:12Z) - Handling Bias in Toxic Speech Detection: A Survey [26.176340438312376]
本稿では,有毒な音声検出におけるバイアスの評価と緩和手法について検討する。
ケーススタディでは、知識に基づくバイアス緩和によるバイアスシフトの概念を紹介している。
調査は、重要な課題、研究のギャップ、今後の方向性の概要で締めくくっている。
論文 参考訳(メタデータ) (2022-01-26T10:38:36Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。