論文の概要: So let's replace this phrase with insult... Lessons learned from generation of toxic texts with LLMs
- arxiv url: http://arxiv.org/abs/2509.08358v1
- Date: Wed, 10 Sep 2025 07:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.34594
- Title: <think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs
- Title(参考訳): 考察>この言葉を侮辱に置き換えよう......... 有害テキストの生成から学んだ教訓
- Authors: Sergey Pletenev, Daniil Moskovskiy, Alexander Panchenko,
- Abstract要約: 本稿では, 人為的データに代わる合成毒性データを用いた脱毒訓練モデルの可能性について検討する。
実験によると、合成データに微調整されたモデルは、人間のデータで訓練されたモデルよりも一貫してパフォーマンスが悪くなっている。
根本原因は、致命的な語彙の多様性のギャップとして認識される: LLMは、小さな反復的な侮辱の語彙を用いて、人間の毒性のニュアンスや多様性を捉えるのに失敗する有毒な内容を生成する。
- 参考スコア(独自算出の注目度): 60.169913160819
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern Large Language Models (LLMs) are excellent at generating synthetic data. However, their performance in sensitive domains such as text detoxification has not received proper attention from the scientific community. This paper explores the possibility of using LLM-generated synthetic toxic data as an alternative to human-generated data for training models for detoxification. Using Llama 3 and Qwen activation-patched models, we generated synthetic toxic counterparts for neutral texts from ParaDetox and SST-2 datasets. Our experiments show that models fine-tuned on synthetic data consistently perform worse than those trained on human data, with a drop in performance of up to 30% in joint metrics. The root cause is identified as a critical lexical diversity gap: LLMs generate toxic content using a small, repetitive vocabulary of insults that fails to capture the nuances and variety of human toxicity. These findings highlight the limitations of current LLMs in this domain and emphasize the continued importance of diverse, human-annotated data for building robust detoxification systems.
- Abstract(参考訳): 現代大規模言語モデル(LLM)は、合成データを生成するのに優れている。
しかし、テキスト・デトックス化などの繊細な分野におけるそれらの業績は、科学界から適切な関心を寄せられていない。
そこで本研究では, LLM合成毒性データを人為的に生成したデータの代わりに, 脱毒の訓練モデルとして用いる可能性について検討する。
Llama 3 と Qwen のアクティベーション対応モデルを用いて,ParaDetox と SST-2 のデータセットから中性テキストに対する合成有毒テキストを生成する。
我々の実験では、合成データに微調整されたモデルは、人間のデータで訓練されたモデルよりも一貫してパフォーマンスが悪く、ジョイントメトリクスの最大30%の性能低下が示されています。
根本原因は、致命的な語彙の多様性のギャップとして認識される: LLMは、小さな反復的な侮辱の語彙を用いて、人間の毒性のニュアンスや多様性を捉えるのに失敗する有毒な内容を生成する。
これらの知見は、この領域における現在のLSMの限界を浮き彫りにして、堅牢な解毒システムを構築するための多種多様な人為的なデータの重要性を強調している。
関連論文リスト
- Something Just Like TRuST : Toxicity Recognition of Span and Target [2.4169078025984825]
本稿では毒性検出の改善を目的とした包括的データセットであるTRuSTを紹介する。
我々は、毒性検出、標的群同定、有害スパン抽出について、最先端の大規模言語モデル(LLM)をベンチマークする。
微調整されたモデルは、特定のソーシャルグループではパフォーマンスが低いものの、ゼロショットや少数ショットのプロンプトを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-02T23:48:16Z) - LLM in the Loop: Creating the ParaDeHate Dataset for Hate Speech Detoxification [44.86106619757571]
解毒のための高品質な並列データセット、特にヘイトスピーチは、人間のアノテーションのコストと感度のために不足している。
本稿では, GPT-4o-mini を利用した新しいLCM-in-the-loopパイプラインを提案する。
8K以上のヘイト/非ヘイトテキストペアのベンチマークとしてParaDeHateをリリースし、幅広いベースライン手法を評価した。
実験結果から,ParaDeHateを微調整したBARTなどのモデルでは,スタイル精度,コンテンツ保存,流速が向上した。
論文 参考訳(メタデータ) (2025-06-02T09:45:05Z) - GloSS over Toxicity: Understanding and Mitigating Toxicity in LLMs via Global Toxic Subspace [62.68664365246247]
本稿では,大規模言語モデル(LLM)の毒性発生機構について検討する。
GloSS(Global Toxic Subspace Suppression)は,FFNのパラメータからグローバルな毒性部分空間を同定・除去することにより毒性を緩和する軽量な4段階法である。
論文 参考訳(メタデータ) (2025-05-20T08:29:11Z) - SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators [61.82799141938912]
既存の多言語テキストデトックス化へのアプローチは、並列多言語データセットの不足によって妨げられている。
本稿では,手動で収集・合成した多言語並列テキストデトックス化データセットであるSynthDetoxMを紹介する。
論文 参考訳(メタデータ) (2025-02-10T12:30:25Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。