論文の概要: Cleansing the Artificial Mind: A Self-Reflective Detoxification Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2601.11776v1
- Date: Fri, 16 Jan 2026 21:01:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.317631
- Title: Cleansing the Artificial Mind: A Self-Reflective Detoxification Framework for Large Language Models
- Title(参考訳): 人工心のクリーニング:大規模言語モデルのための自己反射型デトキシフィケーションフレームワーク
- Authors: Kaituo Zhang, Zhimeng Jiang, Na Zou,
- Abstract要約: 大言語モデル(LLM)は、顕著な生成能力と自己調節機構の出現を明らかにしている。
我々は, LLMの本来の能力を利用して, 有害な内容を検出する, 完全自己反射脱毒フレームワークを導入する。
我々の発見は、真の自己統制型言語モデルの可能性を強調し、より責任と倫理的に導かれたテキスト生成システムへの道を開いた。
- 参考スコア(独自算出の注目度): 14.566005698357747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in Large Language Models (LLMs) have revealed remarkable generative capabilities and emerging self-regulatory mechanisms, including self-correction and self-rewarding. However, current detoxification techniques rarely exploit these built-in abilities; instead, they rely on external modules, labor-intensive data annotation, or human intervention --factors that hinder scalability and consistency. In this paper, we introduce a fully self-reflective detoxification framework that harnesses the inherent capacities of LLMs to detect, correct toxic content, and refine LLMs without external modules and data annotation. Specifically, we propose a Toxic Signal Detector --an internal self-identification mechanism, coupled with a systematic intervention process to transform toxic text into its non-toxic counterpart. This iterative procedure yields a contrastive detoxification dataset used to fine-tune the model, enhancing its ability for safe and coherent text generation. Experiments on benchmark datasets such as DetoxLLM and ParaDetox show that our method achieves better detoxification performance than state-of-the-art methods while preserving semantic fidelity. By obviating the need for human intervention or external components, this paper reveals the intrinsic self-detoxification ability of LLMs, offering a consistent and effective approach for mitigating harmful content generation. Ultimately, our findings underscore the potential for truly self-regulated language models, paving the way for more responsible and ethically guided text generation systems.
- Abstract(参考訳): 近年のLLM(Large Language Models)のブレークスルーは、自己補正や自己回帰を含む、顕著な生成能力と自己調節機構の出現を明らかにしている。
しかし、現在の解毒技術は、これらの組み込み能力を活用することは滅多にない。代わりに、スケーラビリティと一貫性を妨げる外部モジュール、労働集約型データアノテーション、あるいは人間の介入 -- 要素に依存している。
本稿では, LLMの本来の能力を利用して, 外部モジュールやデータアノテーションを使わずにLLMを検出, 補正し, 精製する, 完全自己反射型デトックス化フレームワークを提案する。
具体的には、有害なテキストを非有害なテキストに変換するための体系的な介入プロセスと合わせて、毒性信号検出装置(内部自己識別機構)を提案する。
この反復的手順は、モデルを微調整するために使用される対照的な解毒データセットを生成し、安全で一貫性のあるテキスト生成能力を高める。
DetoxLLMやParaDetoxなどのベンチマークデータセットを用いた実験により,本手法は意味的忠実性を維持しつつ,最先端の手法よりも優れた解毒性能が得られることが示された。
人為的介入や外部成分の必要性を排除し, LLMの本質的な自己解毒能力を明らかにし, 有害なコンテンツ生成を緩和するための一貫した効果的なアプローチを提案する。
最終的に、我々の発見は、真の自己統制型言語モデルの可能性を強調し、より責任と倫理的に導かれたテキスト生成システムへの道を開いた。
関連論文リスト
- Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing [77.75609817898035]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。
textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。
ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
論文 参考訳(メタデータ) (2025-09-24T03:40:32Z) - Redefining Experts: Interpretable Decomposition of Language Models for Toxicity Mitigation [12.58703387927632]
本研究では, ニューロンレベルの毒性指標の安定性, 構造的(層状)表現の利点, 毒性発生を誘導する機構の解釈可能性について検討した。
本稿では,言語モデルの最終出力層を固有分解する手法であるEigenShiftを提案する。
論文 参考訳(メタデータ) (2025-09-20T12:21:52Z) - <think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs [60.169913160819]
本稿では, 人為的データに代わる合成毒性データを用いた脱毒訓練モデルの可能性について検討する。
実験によると、合成データに微調整されたモデルは、人間のデータで訓練されたモデルよりも一貫してパフォーマンスが悪くなっている。
根本原因は、致命的な語彙の多様性のギャップとして認識される: LLMは、小さな反復的な侮辱の語彙を用いて、人間の毒性のニュアンスや多様性を捉えるのに失敗する有毒な内容を生成する。
論文 参考訳(メタデータ) (2025-09-10T07:48:24Z) - Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。
前方伝播中の毒性活性化パターンを動的に検出する。
その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文 参考訳(メタデータ) (2025-05-28T12:37:06Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models [21.341749351654453]
大規模言語モデル(LLM)による有害なコンテンツの生成は、言語技術の安全なデプロイにおいて重要な課題である。
プロトタイプに基づくコントラッシブ・パープレキシティを目標とした微調整 LLM による暗黙的知識編集とテキスト生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-16T16:49:39Z) - CMD: a framework for Context-aware Model self-Detoxification [22.842468869653818]
テキストの解毒は、有害なコンテンツを生み出す言語モデルのリスクを最小限にすることを目的としている。
既存の解毒法では、解毒効果と生成品質のバランスが取れない。
文脈対応モデル自己解毒(CMD)フレームワークを導入し、文脈と解毒プロセスの両方に注意を払う。
論文 参考訳(メタデータ) (2023-08-16T11:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。