論文の概要: Redefining Experts: Interpretable Decomposition of Language Models for Toxicity Mitigation
- arxiv url: http://arxiv.org/abs/2509.16660v1
- Date: Sat, 20 Sep 2025 12:21:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.910714
- Title: Redefining Experts: Interpretable Decomposition of Language Models for Toxicity Mitigation
- Title(参考訳): Redefining Experts: Toxicity Mitigationのための言語モデルの解釈可能な分解
- Authors: Zuhair Hasan Shaik, Abdullah Mazhar, Aseem Srivastava, Md Shad Akhtar,
- Abstract要約: 本研究では, ニューロンレベルの毒性指標の安定性, 構造的(層状)表現の利点, 毒性発生を誘導する機構の解釈可能性について検討した。
本稿では,言語モデルの最終出力層を固有分解する手法であるEigenShiftを提案する。
- 参考スコア(独自算出の注目度): 12.58703387927632
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models have demonstrated impressive fluency across diverse tasks, yet their tendency to produce toxic content remains a critical challenge for AI safety and public trust. Existing toxicity mitigation approaches primarily manipulate individual neuron activations, but these methods suffer from instability, context dependence, and often compromise the model's core language abilities. To address these shortcomings, we investigate three key questions: the stability of neuron-level toxicity indicators, the advantages of structural (layer-wise) representations, and the interpretability of mechanisms driving toxic generation. Through extensive experiments on Jigsaw and ToxiCN datasets, we show that aggregated layer-wise features provide more robust signals than single neurons. Moreover, we observe conceptual limitations in prior works that conflate toxicity detection experts and generation experts within neuron-based interventions. To mitigate this, we propose a novel principled intervention technique, EigenShift, based on eigen-decomposition of the language model's final output layer. This method selectively targets generation-aligned components, enabling precise toxicity suppression without impairing linguistic competence. Our method requires no additional training or fine-tuning, incurs minimal computational cost, and is grounded in rigorous theoretical analysis.
- Abstract(参考訳): 大規模言語モデルは、さまざまなタスクにまたがる顕著な流布を実証しているが、有害なコンテンツを生み出す傾向は、AIの安全性と公的な信頼にとって重要な課題である。
既存の毒性軽減アプローチは、主に個々のニューロンの活性化を制御するが、これらの手法は不安定性、文脈依存に悩まされ、しばしばモデルのコア言語能力を損なう。
これらの欠点に対処するために、ニューロンレベルの毒性指標の安定性、構造的(層的)表現の利点、毒性発生を誘導するメカニズムの解釈可能性の3つの主要な課題について検討する。
JigsawとToxiCNのデータセットに関する広範な実験を通じて、集約された階層的特徴が単一ニューロンよりもロバストな信号を提供することを示した。
さらに, ニューロンによる介入において, 毒性検出の専門家と世代専門家を圧倒する先行研究において, 概念的限界を観察する。
そこで本研究では,言語モデルの最終出力層を固有分解した手法であるEigenShiftを提案する。
言語能力の損なうことなく、精度の高い毒性抑制を可能にする。
本手法では, 追加の訓練や微調整は必要とせず, 計算コストが最小であり, 厳密な理論的解析に基礎を置いている。
関連論文リスト
- <think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs [60.169913160819]
本稿では, 人為的データに代わる合成毒性データを用いた脱毒訓練モデルの可能性について検討する。
実験によると、合成データに微調整されたモデルは、人間のデータで訓練されたモデルよりも一貫してパフォーマンスが悪くなっている。
根本原因は、致命的な語彙の多様性のギャップとして認識される: LLMは、小さな反復的な侮辱の語彙を用いて、人間の毒性のニュアンスや多様性を捉えるのに失敗する有毒な内容を生成する。
論文 参考訳(メタデータ) (2025-09-10T07:48:24Z) - Redefining Toxicity: An Objective and Context-Aware Approach for Stress-Level-Based Detection [1.9424018922013224]
ほとんどの毒性検出モデルは、毒性を本質的なテキストの性質として扱い、その影響を形作る上での文脈の役割を見越す。
我々は毒性を社会的に創発的なストレス信号として再認識する。
本稿では, 毒性検出のための新しいフレームワークについて紹介し, 公式な定義と基準, 新たなデータセットに対するアプローチの検証を行った。
論文 参考訳(メタデータ) (2025-03-20T12:09:01Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models [21.341749351654453]
大規模言語モデル(LLM)による有害なコンテンツの生成は、言語技術の安全なデプロイにおいて重要な課題である。
プロトタイプに基づくコントラッシブ・パープレキシティを目標とした微調整 LLM による暗黙的知識編集とテキスト生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-16T16:49:39Z) - Toxicity Detection with Generative Prompt-based Inference [3.9741109244650823]
言語モデル(LM)は、望ましくない内容を含むコーパスで訓練され、バイアスや毒性を示す能力を持つことは、長年にわたって知られていたリスクである。
本研究では,ゼロショットプロンプトによる毒性検出の生成的変異について検討し,プロンプトエンジニアリングに関する総合的な試行を行った。
論文 参考訳(メタデータ) (2022-05-24T22:44:43Z) - Detoxifying Language Models with a Toxic Corpus [16.7345472998388]
毒性を減らすため, 有害コーパスを添加資源として利用することを提案する。
その結果, 有害コーパスは, 言語生成過程の毒性を大幅に低下させる可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-30T18:25:18Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。