論文の概要: Projecting Out the Malice: A Global Subspace Approach to LLM Detoxification
- arxiv url: http://arxiv.org/abs/2601.06226v1
- Date: Fri, 09 Jan 2026 09:34:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.699345
- Title: Projecting Out the Malice: A Global Subspace Approach to LLM Detoxification
- Title(参考訳): 行列を投影する: LLM脱毒へのグローバルサブスペースアプローチ
- Authors: Zenghao Duan, Zhiyi Yin, Zhichao Shi, Liang Pang, Shaoling Jing, Zihe Huang, Jiayi Wu, Yu Yan, Jingcheng Deng, Huawei Shen, Xueqi Cheng,
- Abstract要約: 大規模言語モデル(LLM)は例外的な性能を示すが、有害なコンテンツを生成する固有のリスクを生じさせる。
従来の手法では、パラメータの根底にある有害領域を排除できず、敵の攻撃に弱いモデルを残している。
我々は,このグローバルな部分空間をFFNパラメータから識別・排除することで毒性を緩和する軽量な方法であるGLOSSを提案する。
- 参考スコア(独自算出の注目度): 73.77171973106567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit exceptional performance but pose inherent risks of generating toxic content, restricting their safe deployment. While traditional methods (e.g., alignment) adjust output preferences, they fail to eliminate underlying toxic regions in parameters, leaving models vulnerable to adversarial attacks. Prior mechanistic studies characterize toxic regions as "toxic vectors" or "layer-wise subspaces", yet our analysis identifies critical limitations: i) Removed toxic vectors can be reconstructed via linear combinations of non-toxic vectors, demanding targeting of entire toxic subspace; ii) Contrastive objective over limited samples inject noise into layer-wise subspaces, hindering stable extraction. These highlight the challenge of identifying robust toxic subspace and removing them. Therefore, we propose GLOSS (GLobal tOxic Subspace Suppression), a lightweight method that mitigates toxicity by identifying and eliminating this global subspace from FFN parameters. Experiments on LLMs (e.g., Qwen3) show GLOSS achieves SOTA detoxification while preserving general capabilities without requiring large-scale retraining. WARNING: This paper contains context which is toxic in nature.
- Abstract(参考訳): 大規模言語モデル(LLM)は、例外的な性能を示すが、有害なコンテンツを生成する固有のリスクを生じさせ、安全なデプロイメントを制限する。
従来の手法(例えばアライメント)は出力の選好を調整するが、パラメータの根底にある有害領域を排除できず、敵の攻撃に弱いモデルを残している。
従来の力学研究では、有害な領域を「有害なベクトル」または「階層的な部分空間」として特徴づけているが、我々の分析では限界を識別している。
一 非毒性ベクターの線形結合により除去された有毒ベクターを再構築することができ、かつ、全有毒部分空間を標的にすることを要求することができる。
二 限られたサンプルに対する反対目的が、層状部分空間にノイズを注入し、安定した抽出を妨げること。
これらは、ロバストな有毒な部分空間を特定し、それらを取り除くという課題を浮き彫りにする。
そこで我々はGLOSS(GLobal tOxic Subspace Suppression, GLOSS)を提案する。
LLM(e , Qwen3)の実験では、GLOSSは大規模な再トレーニングを必要とせず、一般の能力を保ちながらSOTAの解毒を達成している。
WARNING: 本論文は自然に有害な文脈を含む。
関連論文リスト
- Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing [77.75609817898035]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。
textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。
ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
論文 参考訳(メタデータ) (2025-09-24T03:40:32Z) - GloSS over Toxicity: Understanding and Mitigating Toxicity in LLMs via Global Toxic Subspace [62.68664365246247]
本稿では,大規模言語モデル(LLM)の毒性発生機構について検討する。
GloSS(Global Toxic Subspace Suppression)は,FFNのパラメータからグローバルな毒性部分空間を同定・除去することにより毒性を緩和する軽量な4段階法である。
論文 参考訳(メタデータ) (2025-05-20T08:29:11Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Simple Text Detoxification by Identifying a Linear Toxic Subspace in
Language Model Embeddings [8.720903734757627]
大規模な事前訓練された言語モデルは、しばしば大量のインターネットデータに基づいて訓練される。
現在の方法は、有害な特徴が生成されたテキストに現れるのを防ぐことを目的としている。
我々は、事前訓練された言語モデルの潜在空間に低次元有毒な部分空間が存在することを仮定する。
論文 参考訳(メタデータ) (2021-12-15T18:54:34Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。