論文の概要: On the Robustness of Knowledge Editing for Detoxification
- arxiv url: http://arxiv.org/abs/2602.10504v1
- Date: Wed, 11 Feb 2026 04:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.457233
- Title: On the Robustness of Knowledge Editing for Detoxification
- Title(参考訳): 解毒のための知識編集のロバスト性について
- Authors: Ming Dong, Shiyi Tang, Ziyan Peng, Guanyi Chen, Tingting He,
- Abstract要約: 本稿では,知識ベースデトキシフィケーションのためのロバストネス指向評価フレームワークを提案する。
以上の結果から,KE による解毒は,特定のモデル,限定数の解毒目標,言語のサブセットに対してのみ堅牢であることが示唆された。
- 参考スコア(独自算出の注目度): 8.893810228798285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge-Editing-based (KE-based) detoxification has emerged as a promising approach for mitigating harmful behaviours in Large Language Models. Existing evaluations, however, largely rely on automatic toxicity classifiers, implicitly assuming that reduced toxicity scores reflect genuine behavioural suppression. In this work, we propose a robustness-oriented evaluation framework for KE-based detoxification that examines its reliability beyond standard classifier-based metrics along three dimensions: optimisation robustness, compositional robustness, and cross-lingual robustness. We identify pseudo-detoxification as a common failure mode, where apparent toxicity reductions arise from degenerate generation behaviours rather than meaningful suppression of unsafe content. We further show that detoxification effectiveness degrades when multiple unsafe behaviours are edited jointly, and that both monolingual and cross-lingual detoxification remain effective only under specific model-method combinations. Overall, our results indicate that KE-based detoxification is robust only for certain models, limited numbers of detoxification objectives, and a subset of languages.
- Abstract(参考訳): 知識編集に基づく(KEに基づく)デトキシフィケーションは、大規模言語モデルにおける有害な行動を緩和するための有望なアプローチとして現れている。
しかし、既存の評価は自動毒性分類器に大きく依存しており、毒性の低下は真の行動抑制を反映していると暗黙的に仮定している。
そこで本研究では,KEをベースとした解毒処理のためのロバストネス指向評価フレームワークを提案し,その信頼性を3次元の標準分類器ベースの指標(最適化ロバストネス,構成ロバストネス,言語間ロバストネス)に則って検証する。
疑似解毒は、安全でないコンテンツの有意な抑制ではなく、生成行動の退化から明らかな毒性低下が生じる、共通の障害モードとして認識される。
さらに,複数の安全でない動作が共同で編集された場合,解毒効果は低下し,単言語・言語間の解毒効果は,特定のモデル-メソッドの組み合わせでのみ有効であることが示唆された。
以上の結果から, KE による解毒は特定のモデル, 限定数の解毒目標, 言語のサブセットに対してのみ堅牢であることが示唆された。
関連論文リスト
- Unveiling Covert Toxicity in Multimodal Data via Toxicity Association Graphs: A Graph-Based Metric and Interpretable Detection Framework [58.01529356381494]
Toxicity Association Graphs (TAG) に基づく新しい検出フレームワークを提案する。
隠れ毒性の定量化のための最初の指標であるMTC(Multimodal Toxicity Covertness)を紹介する。
本手法は,意思決定プロセスの完全解釈可能性を維持しつつ,隠蔽毒性の正確な同定を可能にする。
論文 参考訳(メタデータ) (2026-02-03T08:54:25Z) - Cleansing the Artificial Mind: A Self-Reflective Detoxification Framework for Large Language Models [14.566005698357747]
大言語モデル(LLM)は、顕著な生成能力と自己調節機構の出現を明らかにしている。
我々は, LLMの本来の能力を利用して, 有害な内容を検出する, 完全自己反射脱毒フレームワークを導入する。
我々の発見は、真の自己統制型言語モデルの可能性を強調し、より責任と倫理的に導かれたテキスト生成システムへの道を開いた。
論文 参考訳(メタデータ) (2026-01-16T21:01:26Z) - Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective [104.09817371557476]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
有害なコンテンツを生み出す可能性には、深刻な安全上の懸念が浮かび上がっている。
毒性検出のための3つの新しいマルチラベルベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T06:50:33Z) - Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing [77.75609817898035]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。
textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。
ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
論文 参考訳(メタデータ) (2025-09-24T03:40:32Z) - Breaking mBad! Supervised Fine-tuning for Cross-Lingual Detoxification [39.711527571739666]
クロス・リンガル・デトキシフィケーション(Cross-lingual Detoxification)は、大規模言語モデルにおいて毒性を緩和するパラダイムである。
本研究では, クロスディストリビューション設定における毒性低下を解析し, 非有害タスクに対するモデル性能への影響について検討する。
論文 参考訳(メタデータ) (2025-05-22T14:30:14Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models [21.341749351654453]
大規模言語モデル(LLM)による有害なコンテンツの生成は、言語技術の安全なデプロイにおいて重要な課題である。
プロトタイプに基づくコントラッシブ・パープレキシティを目標とした微調整 LLM による暗黙的知識編集とテキスト生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-16T16:49:39Z) - Reward Modeling for Mitigating Toxicity in Transformer-based Language
Models [0.0]
トランスフォーマーベースの言語モデルでは、流動的なテキストを生成し、さまざまな自然言語生成タスクに効率よく適応することができる。
大規模未ラベルのウェブテキストコーパスで事前訓練された言語モデルは、有害な内容の変性や社会的偏見の振る舞いに悩まされていることが示されている。
言語モデルにおける毒性を緩和する強化学習に基づく手法であるReinforce-Detoxifyを提案する。
論文 参考訳(メタデータ) (2022-02-19T19:26:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。