論文の概要: Detoxifying Text with MaRCo: Controllable Revision with Experts and
Anti-Experts
- arxiv url: http://arxiv.org/abs/2212.10543v2
- Date: Fri, 26 May 2023 20:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 02:36:16.373919
- Title: Detoxifying Text with MaRCo: Controllable Revision with Experts and
Anti-Experts
- Title(参考訳): MARCoによるテキストのデトックス化:エキスパートとアンチエキスパートによる制御可能な改訂
- Authors: Skyler Hallinan, Alisa Liu, Yejin Choi, Maarten Sap
- Abstract要約: 本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。
MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。
我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
- 参考スコア(独自算出の注目度): 57.38912708076231
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text detoxification has the potential to mitigate the harms of toxicity by
rephrasing text to remove offensive meaning, but subtle toxicity remains
challenging to tackle. We introduce MaRCo, a detoxification algorithm that
combines controllable generation and text rewriting methods using a Product of
Experts with autoencoder language models (LMs). MaRCo uses likelihoods under a
non-toxic LM (expert) and a toxic LM (anti-expert) to find candidate words to
mask and potentially replace. We evaluate our method on several subtle toxicity
and microaggressions datasets, and show that it not only outperforms baselines
on automatic metrics, but MaRCo's rewrites are preferred 2.1 $\times$ more in
human evaluation. Its applicability to instances of subtle toxicity is
especially promising, demonstrating a path forward for addressing increasingly
elusive online hate.
- Abstract(参考訳): テキストの解毒は、攻撃的な意味を取り除くためにテキストを言い換えることで毒性の害を軽減する可能性があるが、微妙な毒性に対処するのは難しい。
本稿では,自動エンコーダ言語モデル(LM)を用いて,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。
MaRCoは、非有毒なLM(専門家)と有毒なLM(反専門家)の下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。
我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しが2.1ドル\times$以上の人的評価で望ましいことを示す。
微妙な毒性の事例に適用性は特に有望であり、オンライン憎悪の高まりに対処するための道筋を示している。
関連論文リスト
- Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。
ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文 参考訳(メタデータ) (2024-10-05T13:30:33Z) - Mitigating Text Toxicity with Counterfactual Generation [0.3250512744763586]
毒性の軽減は、有害な意味を取り除くためにテキストを言い換えることである。
現在のメソッドは、最初の非有毒な意味を保ちながら、テキストをデトックスすることができない。
この研究は、カウンターファクト生成とテキストのデトックス化のギャップを埋める最初のものである。
論文 参考訳(メタデータ) (2024-05-16T09:52:21Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Fine-Grained Detoxification via Instance-Level Prefixes for Large
Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。
FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。
我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文 参考訳(メタデータ) (2024-02-23T09:04:48Z) - Parameter-Efficient Detoxification with Contrastive Decoding [78.5124331048714]
Detoxification Generator (DETOXIGEN) は、不要なスタイルから退避する推論時間アルゴリズムである。
実際の生成では、トレーニングされたデトキシファイタを使用して、生成元が各デコードステップでコントラストする好ましくないトークンを生成する。
生成品質を損なうことなく,従来のデトキシフィケーション指標のアプローチを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-13T01:46:20Z) - Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。
創作作業のプロンプトは 有害な反応を 引き起こす確率が 2倍になる
初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文 参考訳(メタデータ) (2023-11-03T14:37:53Z) - Challenges in Detoxifying Language Models [44.48396735574315]
大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。
安全性の観点から生成したテキストの品質の測定と保証は、実世界におけるLMのデプロイに不可欠である。
我々は, 自動評価と人的評価の両方に関して, いくつかの毒性軽減戦略を評価した。
論文 参考訳(メタデータ) (2021-09-15T17:27:06Z) - Detoxifying Language Models Risks Marginalizing Minority Voices [40.918564746367586]
言語モデル(LM)は、実際にデプロイされるには、安全かつ公平でなければなりません。
有毒なLM生成を緩和する解毒技術が提案されている。
現在の解毒技術は公平性を損なうことを示し、限界群が使用する言語に対するlmsの有用性を低下させる。
論文 参考訳(メタデータ) (2021-04-13T17:52:01Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。