論文の概要: Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing
- arxiv url: http://arxiv.org/abs/2505.22298v1
- Date: Wed, 28 May 2025 12:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.597508
- Title: Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing
- Title(参考訳): アダプティブデトキシフィケーション:毒性を考慮した知識編集によるLCMの汎用能力の保護
- Authors: Yifan Lu, Jing Li, Yigeng Zhou, Yihui Zhang, Wenya Wang, Xiucheng Li, Meishan Zhang, Fangming Liu, Jun Yu, Min Zhang,
- Abstract要約: ToxEditは毒性を意識した知識編集アプローチである。
前方伝播中の毒性活性化パターンを動的に検出する。
その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
- 参考スコア(独自算出の注目度): 49.85884082568318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit impressive language capabilities but remain vulnerable to malicious prompts and jailbreaking attacks. Existing knowledge editing methods for LLM detoxification face two major challenges. First, they often rely on entity-specific localization, making them ineffective against adversarial inputs without explicit entities. Second, these methods suffer from over-editing, where detoxified models reject legitimate queries, compromising overall performance. In this paper, we propose ToxEdit, a toxicity-aware knowledge editing approach that dynamically detects toxic activation patterns during forward propagation. It then routes computations through adaptive inter-layer pathways to mitigate toxicity effectively. This design ensures precise toxicity mitigation while preserving LLMs' general capabilities. To more accurately assess over-editing, we also enhance the SafeEdit benchmark by incorporating instruction-following evaluation tasks. Experimental results on multiple LLMs demonstrate that our ToxEdit outperforms previous state-of-the-art methods in both detoxification performance and safeguarding general capabilities of LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は印象的な言語能力を示すが、悪意のあるプロンプトやジェイルブレイク攻撃に弱いままである。
LLMデトキシ化のための既存の知識編集手法は2つの大きな課題に直面している。
第一に、それらはしばしばエンティティ固有のローカライゼーションに依存しており、明示的なエンティティなしでは敵の入力に対して効果がない。
第二に、これらの方法は過剰な編集に悩まされ、デトックス化されたモデルは正当なクエリを拒否し、全体的なパフォーマンスを損なう。
本稿では,前向き伝播中の毒性活性化パターンを動的に検出する有害性認識型知識編集手法であるToxEditを提案する。
その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
この設計は、LSMの一般的な能力を保ちながら、正確な毒性の緩和を保証する。
オーバー編集をより正確に評価するために、命令追従評価タスクを組み込むことでSafeEditベンチマークも強化する。
複数のLLMに対する実験結果から,我々のToxEditは,従来の最先端手法よりも解毒性能とLLMの汎用性の両方において優れていたことが判明した。
関連論文リスト
- Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。