論文の概要: Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing
- arxiv url: http://arxiv.org/abs/2505.22298v1
- Date: Wed, 28 May 2025 12:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.597508
- Title: Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing
- Title(参考訳): アダプティブデトキシフィケーション:毒性を考慮した知識編集によるLCMの汎用能力の保護
- Authors: Yifan Lu, Jing Li, Yigeng Zhou, Yihui Zhang, Wenya Wang, Xiucheng Li, Meishan Zhang, Fangming Liu, Jun Yu, Min Zhang,
- Abstract要約: ToxEditは毒性を意識した知識編集アプローチである。
前方伝播中の毒性活性化パターンを動的に検出する。
その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
- 参考スコア(独自算出の注目度): 49.85884082568318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit impressive language capabilities but remain vulnerable to malicious prompts and jailbreaking attacks. Existing knowledge editing methods for LLM detoxification face two major challenges. First, they often rely on entity-specific localization, making them ineffective against adversarial inputs without explicit entities. Second, these methods suffer from over-editing, where detoxified models reject legitimate queries, compromising overall performance. In this paper, we propose ToxEdit, a toxicity-aware knowledge editing approach that dynamically detects toxic activation patterns during forward propagation. It then routes computations through adaptive inter-layer pathways to mitigate toxicity effectively. This design ensures precise toxicity mitigation while preserving LLMs' general capabilities. To more accurately assess over-editing, we also enhance the SafeEdit benchmark by incorporating instruction-following evaluation tasks. Experimental results on multiple LLMs demonstrate that our ToxEdit outperforms previous state-of-the-art methods in both detoxification performance and safeguarding general capabilities of LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は印象的な言語能力を示すが、悪意のあるプロンプトやジェイルブレイク攻撃に弱いままである。
LLMデトキシ化のための既存の知識編集手法は2つの大きな課題に直面している。
第一に、それらはしばしばエンティティ固有のローカライゼーションに依存しており、明示的なエンティティなしでは敵の入力に対して効果がない。
第二に、これらの方法は過剰な編集に悩まされ、デトックス化されたモデルは正当なクエリを拒否し、全体的なパフォーマンスを損なう。
本稿では,前向き伝播中の毒性活性化パターンを動的に検出する有害性認識型知識編集手法であるToxEditを提案する。
その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
この設計は、LSMの一般的な能力を保ちながら、正確な毒性の緩和を保証する。
オーバー編集をより正確に評価するために、命令追従評価タスクを組み込むことでSafeEditベンチマークも強化する。
複数のLLMに対する実験結果から,我々のToxEditは,従来の最先端手法よりも解毒性能とLLMの汎用性の両方において優れていたことが判明した。
関連論文リスト
- LLM Hypnosis: Exploiting User Feedback for Unauthorized Knowledge Injection to All Users [50.18141341939909]
ユーザフィードバックで訓練された言語モデルにおける脆弱性について説明する。
単一ユーザは、LMの知識と振る舞いを永続的に変更することができる。
この攻撃は、モデルがこれまで持っていなかった事実的知識を挿入するのに有効であることを示す。
論文 参考訳(メタデータ) (2025-07-03T17:55:40Z) - Detoxification of Large Language Models through Output-layer Fusion with a Calibration Model [15.394714537797183]
既存のLarge Language Model (LLM) の解毒法は、大規模な非毒性または人為的な嗜好データに基づく訓練に依存している。
生成パイプラインの軽量な介入により目標LSMの解毒過程を導出する,コンパクトで事前訓練された校正モデルを提案する。
論文 参考訳(メタデータ) (2025-06-02T02:36:32Z) - Breaking Bad Tokens: Detoxification of LLMs Using Sparse Autoencoders [3.6367827664262715]
大規模言語モデル(LLM)は現在、ユーザ向けアプリケーションではユビキタスだが、望ましくない有害な出力を生成する。
我々はスパースオートエンコーダ(SAE)を利用してモデル残差ストリームの毒性関連方向を特定し、ターゲットのアクティベーションステアリングを行う。
論文 参考訳(メタデータ) (2025-05-20T15:55:31Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Self-Detoxifying Language Models via Toxification Reversal [11.238212967733165]
言語モデル解毒は、事前訓練された言語モデル(PLM)において、攻撃的または有害なコンテンツを生成するリスクを最小限にすることを目的としている。
我々は PLM 自体が "自己退化" を実現するための,より軽量なアプローチを提案する。
本手法は, 負のステアリングプロンプトを前処理することでPLMを効果的に誘導し, 有害な物質を生成できるという観察に基づいて構築された。
論文 参考訳(メタデータ) (2023-10-14T12:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。