論文の概要: CausalDetox: Causal Head Selection and Intervention for Language Model Detoxification
- arxiv url: http://arxiv.org/abs/2604.14602v1
- Date: Thu, 16 Apr 2026 04:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.717036
- Title: CausalDetox: Causal Head Selection and Intervention for Language Model Detoxification
- Title(参考訳): CausalDetox: 言語モデル解毒のための因果的頭部選択と介入
- Authors: Yian Wang, Yuen Chen, Agam Goyal, Hari Sundaram,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば有害なコンテンツを生成し、安全なデプロイメントの重大なリスクを生じさせる。
本稿では, 有害発生の原因となる特定の注意点を同定し, 介入する枠組みであるCAUSALDETOXを提案する。
- 参考スコア(独自算出の注目度): 10.438004034144884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) frequently generate toxic content, posing significant risks for safe deployment. Current mitigation strategies often degrade generation quality or require costly human annotation. We propose CAUSALDETOX, a framework that identifies and intervenes on the specific attention heads causally responsible for toxic generation. Using the Probability of Necessity and Sufficiency (PNS), we isolate a minimal set of heads that are necessary and sufficient for toxicity. We utilize these components via two complementary strategies: (1) Local Inference-Time Intervention, which constructs dynamic, input-specific steering vectors for context-aware detoxification, and (2) PNS-Guided Fine-Tuning, which permanently unlearns toxic representations. We also introduce PARATOX, a novel benchmark of aligned toxic/non-toxic sentence pairs enabling controlled counterfactual evaluation. Experiments on ToxiGen, ImplicitHate, and ParaDetox show that CAUSALDETOX achieves up to 5.34% greater toxicity reduction compared to baselines while preserving linguistic fluency, and offers a 7x speedup in head selection.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば有害なコンテンツを生成し、安全なデプロイメントの重大なリスクを生じさせる。
現在の緩和戦略は、しばしば生成品質を低下させるか、人為的アノテーションを必要とする。
本稿では, 有害発生の原因となる特定の注意点を同定し, 介入する枠組みであるCAUSALDETOXを提案する。
PNS (Probability of Necessity and Sufficiency) を用いて, 毒性に十分な最小限の頭部群を分離する。
本研究では,(1)文脈認識型デトキシ化のための動的で入力特異的なステアリングベクターを構成するローカル推論・タイム・インターベンションと,(2)有毒な表現を永久に学習するPNSガイドファインタニングという2つの補完戦略を用いてこれらのコンポーネントを利用する。
また PARATOX は, 有害・非毒性の文対を協調的に比較し, 対実評価を制御可能な新しいベンチマークである。
ToxiGen、ImplicitHate、ParaDetoxの実験では、CAUSALDETOXは言語流布を保ちながらベースラインよりも最大5.34%毒性の低下を達成し、頭部選択の7倍のスピードアップを提供する。
関連論文リスト
- Do Prompts Guarantee Safety? Mitigating Toxicity from LLM Generations through Subspace Intervention [6.808534332444413]
大きな言語モデル(LLM)は強力なテキストジェネレータである。
LLMは、一見無害なプロンプトが与えられたとしても、有害または有害な内容物を生成することができる。
これは深刻な安全性の課題であり、現実世界に害を与える可能性がある。
論文 参考訳(メタデータ) (2026-02-06T11:33:17Z) - Projecting Out the Malice: A Global Subspace Approach to LLM Detoxification [73.77171973106567]
大規模言語モデル(LLM)は例外的な性能を示すが、有害なコンテンツを生成する固有のリスクを生じさせる。
従来の手法では、パラメータの根底にある有害領域を排除できず、敵の攻撃に弱いモデルを残している。
我々は,このグローバルな部分空間をFFNパラメータから識別・排除することで毒性を緩和する軽量な方法であるGLOSSを提案する。
論文 参考訳(メタデータ) (2026-01-09T09:34:53Z) - Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing [77.75609817898035]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。
textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。
ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
論文 参考訳(メタデータ) (2025-09-24T03:40:32Z) - Redefining Experts: Interpretable Decomposition of Language Models for Toxicity Mitigation [12.58703387927632]
本研究では, ニューロンレベルの毒性指標の安定性, 構造的(層状)表現の利点, 毒性発生を誘導する機構の解釈可能性について検討した。
本稿では,言語モデルの最終出力層を固有分解する手法であるEigenShiftを提案する。
論文 参考訳(メタデータ) (2025-09-20T12:21:52Z) - GloSS over Toxicity: Understanding and Mitigating Toxicity in LLMs via Global Toxic Subspace [62.68664365246247]
本稿では,大規模言語モデル(LLM)の毒性発生機構について検討する。
GloSS(Global Toxic Subspace Suppression)は,FFNのパラメータからグローバルな毒性部分空間を同定・除去することにより毒性を緩和する軽量な4段階法である。
論文 参考訳(メタデータ) (2025-05-20T08:29:11Z) - Mitigating Text Toxicity with Counterfactual Generation [0.3250512744763586]
毒性の軽減は、有害な意味を取り除くためにテキストを言い換えることである。
現在のメソッドは、最初の非有毒な意味を保ちながら、テキストをデトックスすることができない。
この研究は、カウンターファクト生成とテキストのデトックス化のギャップを埋める最初のものである。
論文 参考訳(メタデータ) (2024-05-16T09:52:21Z) - Parameter-Efficient Detoxification with Contrastive Decoding [78.5124331048714]
Detoxification Generator (DETOXIGEN) は、不要なスタイルから退避する推論時間アルゴリズムである。
実際の生成では、トレーニングされたデトキシファイタを使用して、生成元が各デコードステップでコントラストする好ましくないトークンを生成する。
生成品質を損なうことなく,従来のデトキシフィケーション指標のアプローチを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-13T01:46:20Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。