Fugu-MT 論文翻訳(概要): Detoxifying Text with MaRCo: Controllable Revision with Experts and Anti-Experts

論文の概要: Detoxifying Text with MaRCo: Controllable Revision with Experts and Anti-Experts

arxiv url: http://arxiv.org/abs/2212.10543v2
Date: Fri, 26 May 2023 20:26:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 02:36:16.373919
Title: Detoxifying Text with MaRCo: Controllable Revision with Experts and Anti-Experts
Title（参考訳）: MARCoによるテキストのデトックス化:エキスパートとアンチエキスパートによる制御可能な改訂
Authors: Skyler Hallinan, Alisa Liu, Yejin Choi, Maarten Sap
Abstract要約: 本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。 MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
参考スコア（独自算出の注目度）: 57.38912708076231
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text detoxification has the potential to mitigate the harms of toxicity by rephrasing text to remove offensive meaning, but subtle toxicity remains challenging to tackle. We introduce MaRCo, a detoxification algorithm that combines controllable generation and text rewriting methods using a Product of Experts with autoencoder language models (LMs). MaRCo uses likelihoods under a non-toxic LM (expert) and a toxic LM (anti-expert) to find candidate words to mask and potentially replace. We evaluate our method on several subtle toxicity and microaggressions datasets, and show that it not only outperforms baselines on automatic metrics, but MaRCo's rewrites are preferred 2.1 $\times$ more in human evaluation. Its applicability to instances of subtle toxicity is especially promising, demonstrating a path forward for addressing increasingly elusive online hate.
Abstract（参考訳）: テキストの解毒は、攻撃的な意味を取り除くためにテキストを言い換えることで毒性の害を軽減する可能性があるが、微妙な毒性に対処するのは難しい。本稿では,自動エンコーダ言語モデル(LM)を用いて,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。 MaRCoは、非有毒なLM(専門家)と有毒なLM(反専門家)の下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しが2.1ドル\times$以上の人的評価で望ましいことを示す。微妙な毒性の事例に適用性は特に有望であり、オンライン憎悪の高まりに対処するための道筋を示している。

関連論文リスト

LLM in the Loop: Creating the ParaDeHate Dataset for Hate Speech Detoxification [44.86106619757571]
解毒のための高品質な並列データセット、特にヘイトスピーチは、人間のアノテーションのコストと感度のために不足している。本稿では, GPT-4o-mini を利用した新しいLCM-in-the-loopパイプラインを提案する。 8K以上のヘイト/非ヘイトテキストペアのベンチマークとしてParaDeHateをリリースし、幅広いベースライン手法を評価した。実験結果から,ParaDeHateを微調整したBARTなどのモデルでは,スタイル精度,コンテンツ保存,流速が向上した。
論文参考訳（メタデータ） (2025-06-02T09:45:05Z)
Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。前方伝播中の毒性活性化パターンを動的に検出する。その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文参考訳（メタデータ） (2025-05-28T12:37:06Z)
Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。 ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文参考訳（メタデータ） (2024-10-05T13:30:33Z)
Mitigating Text Toxicity with Counterfactual Generation [0.3250512744763586]
毒性の軽減は、有害な意味を取り除くためにテキストを言い換えることである。現在のメソッドは、最初の非有毒な意味を保ちながら、テキストをデトックスすることができない。この研究は、カウンターファクト生成とテキストのデトックス化のギャップを埋める最初のものである。
論文参考訳（メタデータ） (2024-05-16T09:52:21Z)
Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文参考訳（メタデータ） (2024-03-21T15:18:30Z)
Fine-Grained Detoxification via Instance-Level Prefixes for Large Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。 FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文参考訳（メタデータ） (2024-02-23T09:04:48Z)
Parameter-Efficient Detoxification with Contrastive Decoding [78.5124331048714]
Detoxification Generator (DETOXIGEN) は、不要なスタイルから退避する推論時間アルゴリズムである。実際の生成では、トレーニングされたデトキシファイタを使用して、生成元が各デコードステップでコントラストする好ましくないトークンを生成する。生成品質を損なうことなく,従来のデトキシフィケーション指標のアプローチを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-01-13T01:46:20Z)
Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。創作作業のプロンプトは有害な反応を引き起こす確率が 2倍になる初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文参考訳（メタデータ） (2023-11-03T14:37:53Z)
Challenges in Detoxifying Language Models [44.48396735574315]
大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。安全性の観点から生成したテキストの品質の測定と保証は、実世界におけるLMのデプロイに不可欠である。我々は, 自動評価と人的評価の両方に関して, いくつかの毒性軽減戦略を評価した。
論文参考訳（メタデータ） (2021-09-15T17:27:06Z)
Detoxifying Language Models Risks Marginalizing Minority Voices [40.918564746367586]
言語モデル(LM)は、実際にデプロイされるには、安全かつ公平でなければなりません。有毒なLM生成を緩和する解毒技術が提案されている。現在の解毒技術は公平性を損なうことを示し、限界群が使用する言語に対するlmsの有用性を低下させる。
論文参考訳（メタデータ） (2021-04-13T17:52:01Z)
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文参考訳（メタデータ） (2020-09-24T03:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。