論文の概要: Challenges in Automated Debiasing for Toxic Language Detection
- arxiv url: http://arxiv.org/abs/2102.00086v1
- Date: Fri, 29 Jan 2021 22:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 06:59:48.637798
- Title: Challenges in Automated Debiasing for Toxic Language Detection
- Title(参考訳): 有害言語検出のための自動デビアス化の課題
- Authors: Xuhui Zhou, Maarten Sap, Swabha Swayamdipta, Noah A. Smith, Yejin Choi
- Abstract要約: バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
- 参考スコア(独自算出の注目度): 81.04406231100323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biased associations have been a challenge in the development of classifiers
for detecting toxic language, hindering both fairness and accuracy. As
potential solutions, we investigate recently introduced debiasing methods for
text classification datasets and models, as applied to toxic language
detection. Our focus is on lexical (e.g., swear words, slurs, identity
mentions) and dialectal markers (specifically African American English). Our
comprehensive experiments establish that existing methods are limited in their
ability to prevent biased behavior in current toxicity detectors. We then
propose an automatic, dialect-aware data correction method, as a
proof-of-concept. Despite the use of synthetic labels, this method reduces
dialectal associations with toxicity. Overall, our findings show that debiasing
a model trained on biased toxic language data is not as effective as simply
relabeling the data to remove existing biases.
- Abstract(参考訳): バイアス協会は、有毒な言語を検出するための分類器の開発において挑戦的であり、公平性と正確性の両方を妨げる。
近年,有毒な言語検出法として,テキスト分類データセットやモデルに対するデバイアス法が提案されている。
私たちの焦点は語彙(例えば、単語、スラリー、アイデンティティ言及)と方言マーカー(特にアフリカ系アメリカ人英語)である。
包括的実験により,現在の毒性検出装置では,既存の手法が偏りを防止できる能力に制限があることが確認された。
次に,概念実証として,方言認識データの自動補正手法を提案する。
合成ラベルの使用にもかかわらず、この方法は毒性との方言の関連を減らします。
以上の結果から,有毒な言語データに基づいてトレーニングされたモデルのデバイアス化は,既存のバイアスを取り除くために単にデータを緩和するほど効果的ではないことがわかった。
関連論文リスト
- On the Role of Speech Data in Reducing Toxicity Detection Bias [22.44133159647888]
マルチリンガルな MuTox データセットに対して,高品質なグループアノテーションセットを作成する。
次に、これらのアノテーションを利用して、音声およびテキストに基づく毒性分類器を体系的に比較する。
以上の結果から,推測中の音声データへのアクセスは,グループ言及に対する偏見の低減に役立つことが示唆された。
論文 参考訳(メタデータ) (2024-11-12T19:26:43Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination [54.865941973768905]
本稿では,命令追従設定における言語モデルのバイアスニューロンを除去するための,新しい実用的なバイアス緩和手法であるCRISPRを提案する。
CRISPRは自動的にバイアス出力を決定し、バイアス出力に影響を与えるニューロンを説明可能性法を用いてバイアスニューロンに分類する。
実験により,モデルのタスク性能と既存知識を損なうことなく,ゼロショット命令追従条件下でのバイアス軽減効果が示された。
論文 参考訳(メタデータ) (2023-11-16T07:16:55Z) - Toxicity Detection with Generative Prompt-based Inference [3.9741109244650823]
言語モデル(LM)は、望ましくない内容を含むコーパスで訓練され、バイアスや毒性を示す能力を持つことは、長年にわたって知られていたリスクである。
本研究では,ゼロショットプロンプトによる毒性検出の生成的変異について検討し,プロンプトエンジニアリングに関する総合的な試行を行った。
論文 参考訳(メタデータ) (2022-05-24T22:44:43Z) - Detoxifying Language Models with a Toxic Corpus [16.7345472998388]
毒性を減らすため, 有害コーパスを添加資源として利用することを提案する。
その結果, 有害コーパスは, 言語生成過程の毒性を大幅に低下させる可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-30T18:25:18Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - RECAST: Enabling User Recourse and Interpretability of Toxicity
Detection Models with Interactive Visualization [16.35961310670002]
本稿では,有害モデルの予測を可視化するインタラクティブなオープンソースWebツールであるRECASTについて紹介する。
その結果,RECASTはモデルにより検出された毒性の低減に有効であることが判明した。
このことは、毒性検出モデルがどのように機能し、機能するか、そしてそれらがオンライン談話の将来に与える影響について、議論を開いている。
論文 参考訳(メタデータ) (2021-02-08T18:37:50Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。