論文の概要: DSCD: Large Language Model Detoxification with Self-Constrained Decoding
- arxiv url: http://arxiv.org/abs/2510.13183v1
- Date: Wed, 15 Oct 2025 06:10:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.518286
- Title: DSCD: Large Language Model Detoxification with Self-Constrained Decoding
- Title(参考訳): DSCD: 自己拘束型デコードによる大規模言語モデルのデトックス化
- Authors: Ming Dong, Jinkui Zhang, Bolong Zheng, Xinhui Tu, Po Hu, Tingting He,
- Abstract要約: 大規模言語モデル(LLM)の解毒は依然として重要な研究課題である。
既存のデコードデトックス化手法はすべて外部制約に基づいている。
本研究では,パラメータの微調整を伴わない新しいLSMデトキシフィケーション法であるDSCD(Detoxification with Self-Constrained Decoding)を提案する。
- 参考スコア(独自算出の注目度): 8.241449215789837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detoxification in large language models (LLMs) remains a significant research challenge. Existing decoding detoxification methods are all based on external constraints, which require additional resource overhead and lose generation fluency. This work proposes Detoxification with Self-Constrained Decoding (DSCD), a novel method for LLM detoxification without parameter fine-tuning. DSCD strengthens the inner next-token distribution of the safety layer while weakening that of hallucination and toxic layers during output generation. This effectively diminishes toxicity and enhances output safety. DSCD offers lightweight, high compatibility, and plug-and-play capabilities, readily integrating with existing detoxification methods for further performance improvement. Extensive experiments on representative open-source LLMs and public datasets validate DSCD's effectiveness, demonstrating state-of-the-art (SOTA) performance in both detoxification and generation fluency, with superior efficiency compared to existing methods. These results highlight DSCD's potential as a practical and scalable solution for safer LLM deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)の解毒は依然として重要な研究課題である。
既存のデコードデトキシフィケーション手法はすべて外部制約に基づいており、リソースのオーバーヘッドが増大し、発生頻度が低下する。
本研究では,パラメータの微調整を伴わない新しいLSMデトキシフィケーション法であるDSCD(Detoxification with Self-Constrained Decoding)を提案する。
DSCDは、出力発生時の幻覚層や有毒層を弱めつつ、安全層の内層次層分布を強化する。
これにより毒性が効果的に低下し、出力安全性が向上する。
DSCDは軽量、高互換性、プラグ・アンド・プレイの機能を提供する。
代表的なオープンソースLLMと公開データセットに関する大規模な実験により、DSCDの有効性が検証され、従来の方法よりも優れた効率で、解毒と生成流速の両方で最先端(SOTA)性能が実証された。
これらの結果は、DSCDがより安全なLCMデプロイメントのための実用的でスケーラブルなソリューションとしての可能性を強調している。
関連論文リスト
- Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing [77.75609817898035]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。
textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。
ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
論文 参考訳(メタデータ) (2025-09-24T03:40:32Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - CMD: a framework for Context-aware Model self-Detoxification [22.842468869653818]
テキストの解毒は、有害なコンテンツを生み出す言語モデルのリスクを最小限にすることを目的としている。
既存の解毒法では、解毒効果と生成品質のバランスが取れない。
文脈対応モデル自己解毒(CMD)フレームワークを導入し、文脈と解毒プロセスの両方に注意を払う。
論文 参考訳(メタデータ) (2023-08-16T11:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。