論文の概要: Detoxification for LLM: From Dataset Itself
- arxiv url: http://arxiv.org/abs/2604.19124v1
- Date: Tue, 21 Apr 2026 06:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.645629
- Title: Detoxification for LLM: From Dataset Itself
- Title(参考訳): LLMのデトックス化:データセットから
- Authors: Wei Shao, Yihang Wang, Gaoyu Zhu, Ziqiang Cheng, Lei Yu, Jiafeng Guo, Xueqi Cheng,
- Abstract要約: 既存の大規模言語モデルの解毒方法は、主に訓練後の段階や推論時間に焦点をあてるが、データセット自体の毒性の源となるものはほとんどない。
SoCD(Soft Contrastive Decoding:ソフトコントラストデコーディング)で生のコーパスを直接デトックス化しようと試み,LLMが生データの有害なスパンを局所化し書き直ししし,セマンティクスを保存しながら誘導する。
GPT2-XLでは、HSPDは最先端の解毒を達成し、毒性確率(TP)を0.42から0.18に、最大毒性(EMT)を0.43から0.20に減少させる。
- 参考スコア(独自算出の注目度): 69.09071947137926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing detoxification methods for large language models mainly focus on post-training stage or inference time, while few tackle the source of toxicity, namely, the dataset itself. Such training-based or controllable decoding approaches cannot completely suppress the model's inherent toxicity, whereas detoxifying the pretraining dataset can fundamentally reduce the toxicity that the model learns during training. Hence, we attempt to detoxify directly on raw corpora with SoCD (Soft Contrastive Decoding), which guides an LLM to localize and rewrite toxic spans in raw data while preserving semantics, in our proposed HSPD (Hierarchical Semantic-Preserving Detoxification) pipeline, yielding a detoxified corpus that can drop-in replace the original for fine-tuning or other training. On GPT2-XL, HSPD attains state-of-the-art detoxification, reducing Toxicity Probability (TP) from 0.42 to 0.18 and Expected Maximum Toxicity (EMT) from 0.43 to 0.20. We further validate consistent best-in-class results on LLaMA2-7B, OPT-6.7B, and Falcon-7B. These findings show that semantics-preserving, corpus-level rewriting with HSPD effectively suppresses downstream toxicity while retaining data utility and allowing seamless source-level mitigation, thereby reducing the cost of later model behavior adjustment. (Code is available at: https://github.com/ntsw2001/data_detox_for_llm)
- Abstract(参考訳): 既存の大規模言語モデルの解毒方法は、主に訓練後の段階や推論時間に焦点をあてるが、データセット自体の毒性の源となるものはほとんどない。
このようなトレーニングベースまたは制御可能なデコードアプローチは、モデル固有の毒性を完全に抑制することはできないが、事前トレーニングデータセットのデトックスは、トレーニング中にモデルが学習する毒性を根本的に低減することができる。
そこで我々は,本研究で提案したHSPDパイプライン(階層的セマンティック・デトキシフィケーション)において,LLMが生データ中の有害なスパンを局所化し,リライトするように誘導するSoCD(Soft Contrastive Decoding)を用いて生コーパスに直接デトキシフィケーションを行おうとする。
GPT2-XLでは、HSPDは最先端の解毒を達成し、毒性確率(TP)は0.42から0.18に、最大毒性(EMT)は0.43から0.20に減少する。
さらにLLaMA2-7B, OPT-6.7B, Falcon-7Bにおける一貫したベストインクラス結果の検証を行った。
これらの結果から,HSPDによるセマンティクスの保存,コーパスレベルの書き換えは,データユーティリティを維持しながら下流の毒性を効果的に抑制し,シームレスなソースレベルの緩和を可能にし,後のモデル行動調整のコストを低減できることが示唆された。
(コードはhttps://github.com/ntsw2001/data_detox_for_llm)。
関連論文リスト
- Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing [77.75609817898035]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。
textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。
ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
論文 参考訳(メタデータ) (2025-09-24T03:40:32Z) - <think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs [60.169913160819]
本稿では, 人為的データに代わる合成毒性データを用いた脱毒訓練モデルの可能性について検討する。
実験によると、合成データに微調整されたモデルは、人間のデータで訓練されたモデルよりも一貫してパフォーマンスが悪くなっている。
根本原因は、致命的な語彙の多様性のギャップとして認識される: LLMは、小さな反復的な侮辱の語彙を用いて、人間の毒性のニュアンスや多様性を捉えるのに失敗する有毒な内容を生成する。
論文 参考訳(メタデータ) (2025-09-10T07:48:24Z) - Detoxification of Large Language Models through Output-layer Fusion with a Calibration Model [15.394714537797183]
既存のLarge Language Model (LLM) の解毒法は、大規模な非毒性または人為的な嗜好データに基づく訓練に依存している。
生成パイプラインの軽量な介入により目標LSMの解毒過程を導出する,コンパクトで事前訓練された校正モデルを提案する。
論文 参考訳(メタデータ) (2025-06-02T02:36:32Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Model Editing as a Robust and Denoised variant of DPO: A Case Study on Toxicity [6.786565820048478]
本稿では,無調音アライメントの代替であるProFSを導入し,毒性低減のユースケースでその効果を実証する。
ProFSはモデルパラメータ空間内の有毒な部分空間を特定し、検出された部分空間を投影することでモデル毒性を低減する。
我々は, ProFS が DPO よりもサンプリング効率が高いことを示し,さらにノイズの多いデータに対するロバスト性を示す。
論文 参考訳(メタデータ) (2024-05-22T20:08:48Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - CMD: a framework for Context-aware Model self-Detoxification [22.842468869653818]
テキストの解毒は、有害なコンテンツを生み出す言語モデルのリスクを最小限にすることを目的としている。
既存の解毒法では、解毒効果と生成品質のバランスが取れない。
文脈対応モデル自己解毒(CMD)フレームワークを導入し、文脈と解毒プロセスの両方に注意を払う。
論文 参考訳(メタデータ) (2023-08-16T11:50:38Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。