論文の概要: LLM in the Loop: Creating the PARADEHATE Dataset for Hate Speech Detoxification
- arxiv url: http://arxiv.org/abs/2506.01484v1
- Date: Mon, 02 Jun 2025 09:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.738826
- Title: LLM in the Loop: Creating the PARADEHATE Dataset for Hate Speech Detoxification
- Title(参考訳): LLM in the Loop: Creating the PARADEHATE Dataset for Hate Speech Detoxification
- Authors: Shuzhou Yuan, Ercong Nie, Lukas Kouba, Ashish Yashwanth Kangen, Helmut Schmid, Hinrich Schutze, Michael Farber,
- Abstract要約: 解毒のための高品質な並列データセット、特にヘイトスピーチは、人間のアノテーションのコストと感度のために不足している。
本稿では, GPT-4o-mini を利用した新しいLCM-in-the-loopパイプラインを提案する。
我々は, PARADEHATEを8K以上のヘイト/非ヘイトテキストペアのベンチマークとしてリリースし, 幅広いベースライン手法の評価を行った。
- 参考スコア(独自算出の注目度): 9.314444802025408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detoxification, the task of rewriting harmful language into non-toxic text, has become increasingly important amid the growing prevalence of toxic content online. However, high-quality parallel datasets for detoxification, especially for hate speech, remain scarce due to the cost and sensitivity of human annotation. In this paper, we propose a novel LLM-in-the-loop pipeline leveraging GPT-4o-mini for automated detoxification. We first replicate the ParaDetox pipeline by replacing human annotators with an LLM and show that the LLM performs comparably to human annotation. Building on this, we construct PARADEHATE, a large-scale parallel dataset specifically for hatespeech detoxification. We release PARADEHATE as a benchmark of over 8K hate/non-hate text pairs and evaluate a wide range of baseline methods. Experimental results show that models such as BART, fine-tuned on PARADEHATE, achieve better performance in style accuracy, content preservation, and fluency, demonstrating the effectiveness of LLM-generated detoxification text as a scalable alternative to human annotation.
- Abstract(参考訳): 非有害なテキストに有害な言語を書き換える作業であるデトックス化は、オンライン上で有害なコンテンツが増えつつある中で、ますます重要になっている。
しかしながら、特にヘイトスピーチでは、人間のアノテーションのコストと感度のために、高い品質のパラレルデータセットが不足している。
本稿では, GPT-4o-mini を利用した新しいLCM-in-the-loopパイプラインを提案する。
まず、人間のアノテーションをLLMに置き換えることで、ParaDetoxパイプラインを複製し、LLMが人間のアノテーションと相容れない性能を示す。
そこで我々は,ヘイトスピーチ解毒のための大規模並列データセットであるPARADEHATEを構築した。
8K以上のヘイト/非ヘイトテキストペアのベンチマークとしてPARADEHATEをリリースし,幅広いベースライン手法の評価を行った。
実験結果から, PARADEHATEを微調整したBARTなどのモデルは, 書式精度, コンテンツ保存, 流布性能が向上し, 人間のアノテーションに代えて, LLM生成したデトックス化テキストの有効性が示された。
関連論文リスト
- Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。
前方伝播中の毒性活性化パターンを動的に検出する。
その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文 参考訳(メタデータ) (2025-05-28T12:37:06Z) - SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators [61.82799141938912]
既存の多言語テキストデトックス化へのアプローチは、並列多言語データセットの不足によって妨げられている。
本稿では,手動で収集・合成した多言語並列テキストデトックス化データセットであるSynthDetoxMを紹介する。
論文 参考訳(メタデータ) (2025-02-10T12:30:25Z) - Learning from Response not Preference: A Stackelberg Approach for LLM Detoxification using Non-parallel Data [14.5729517924905]
本研究は,非並列データのみを用いて大規模言語モデル(LLM)を解毒リウィッターに変換する微調整手法を提案する。
実験により, SRO微細化LLMは, スタイル精度, 内容類似性, 流速に関する最先端モデルに匹敵する満足度を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-10-27T00:39:54Z) - Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。
ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文 参考訳(メタデータ) (2024-10-05T13:30:33Z) - Fine-Grained Detoxification via Instance-Level Prefixes for Large
Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。
FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。
我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文 参考訳(メタデータ) (2024-02-23T09:04:48Z) - CMD: a framework for Context-aware Model self-Detoxification [22.842468869653818]
テキストの解毒は、有害なコンテンツを生み出す言語モデルのリスクを最小限にすることを目的としている。
既存の解毒法では、解毒効果と生成品質のバランスが取れない。
文脈対応モデル自己解毒(CMD)フレームワークを導入し、文脈と解毒プロセスの両方に注意を払う。
論文 参考訳(メタデータ) (2023-08-16T11:50:38Z) - Detoxifying Text with MaRCo: Controllable Revision with Experts and
Anti-Experts [57.38912708076231]
本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。
MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。
我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
論文 参考訳(メタデータ) (2022-12-20T18:50:00Z) - Language Detoxification with Attribute-Discriminative Latent Space [59.167432249229584]
トランスフォーマーベースの言語モデル(LM)は、自然言語理解タスクにおいて印象的な結果を得た。
また、侮辱、脅し、暴言などの有毒なテキストを生成でき、現実世界の応用を制限できる。
本稿では,属性識別型潜在空間を用いた効果的かつ効率的な言語解毒法を提案する。
論文 参考訳(メタデータ) (2022-10-19T06:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。