論文の概要: Detoxifying Language Models Risks Marginalizing Minority Voices
- arxiv url: http://arxiv.org/abs/2104.06390v1
- Date: Tue, 13 Apr 2021 17:52:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:43:10.890872
- Title: Detoxifying Language Models Risks Marginalizing Minority Voices
- Title(参考訳): 言語モデルのデトックス化はマイノリティの声の限界化を危険にさらす
- Authors: Albert Xu, Eshaan Pathak, Eric Wallace, Suchin Gururangan, Maarten
Sap, Dan Klein
- Abstract要約: 言語モデル(LM)は、実際にデプロイされるには、安全かつ公平でなければなりません。
有毒なLM生成を緩和する解毒技術が提案されている。
現在の解毒技術は公平性を損なうことを示し、限界群が使用する言語に対するlmsの有用性を低下させる。
- 参考スコア(独自算出の注目度): 40.918564746367586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) must be both safe and equitable to be responsibly
deployed in practice. With safety in mind, numerous detoxification techniques
(e.g., Dathathri et al. 2020; Krause et al. 2020) have been proposed to
mitigate toxic LM generations. In this work, we show that current
detoxification techniques hurt equity: they decrease the utility of LMs on
language used by marginalized groups (e.g., African-American English and
minority identity mentions). In particular, we perform automatic and human
evaluations of text generation quality when LMs are conditioned on inputs with
different dialects and group identifiers. We find that detoxification makes LMs
more brittle to distribution shift, especially on language used by marginalized
groups. We identify that these failures stem from detoxification methods
exploiting spurious correlations in toxicity datasets. Overall, our results
highlight the tension between the controllability and distributional robustness
of LMs.
- Abstract(参考訳): 言語モデル(lms)は、実際に責任を持ってデプロイされるためには、安全かつ公平でなければならない。
安全性を念頭に置いて、多くの解毒技術(例:Dathathri et al)。
2020年、Krauseら。
2020年) 有害なlm世代を緩和するために提案されている。
本研究は,現在のデトキシフィケーション技術が公平性に悪影響を及ぼすことを示し,境界化グループ(例えば,アフリカ系アメリカ人英語や少数民族のアイデンティティ)が使用する言語に対するlmsの活用を減少させる。
特に,方言やグループ識別子の異なる入力に対してlmsが条件付けされた場合,テキスト生成品質の自動的・人的評価を行う。
除毒により、LMは分布シフトに対して脆弱になり、特に疎外化グループで使われる言語では、より脆弱であることが判明した。
これらの障害は毒性データセットの急激な相関を利用した解毒法に由来する。
総じて, LMの制御性と分布性の間の張力に着目した。
関連論文リスト
- Mitigating Text Toxicity with Counterfactual Generation [0.3250512744763586]
毒性の軽減は、有害な意味を取り除くためにテキストを言い換えることである。
現在のメソッドは、最初の非有毒な意味を保ちながら、テキストをデトックスすることができない。
この研究は、カウンターファクト生成とテキストのデトックス化のギャップを埋める最初のものである。
論文 参考訳(メタデータ) (2024-05-16T09:52:21Z) - PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models [27.996123856250065]
既存の毒性ベンチマークは圧倒的に英語に焦点を当てている。
PTP(PolygloToxicity Prompts)は、17言語にまたがる自然発生プロンプト425Kの大規模多言語毒性評価ベンチマークである。
論文 参考訳(メタデータ) (2024-05-15T14:22:33Z) - Detoxifying Text with MaRCo: Controllable Revision with Experts and
Anti-Experts [57.38912708076231]
本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。
MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。
我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
論文 参考訳(メタデータ) (2022-12-20T18:50:00Z) - Language Detoxification with Attribute-Discriminative Latent Space [59.167432249229584]
トランスフォーマーベースの言語モデル(LM)は、自然言語理解タスクにおいて印象的な結果を得た。
また、侮辱、脅し、暴言などの有毒なテキストを生成でき、現実世界の応用を制限できる。
本稿では,属性識別型潜在空間を用いた効果的かつ効率的な言語解毒法を提案する。
論文 参考訳(メタデータ) (2022-10-19T06:54:42Z) - Challenges in Detoxifying Language Models [44.48396735574315]
大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。
安全性の観点から生成したテキストの品質の測定と保証は、実世界におけるLMのデプロイに不可欠である。
我々は, 自動評価と人的評価の両方に関して, いくつかの毒性軽減戦略を評価した。
論文 参考訳(メタデータ) (2021-09-15T17:27:06Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。