論文の概要: GloSS over Toxicity: Understanding and Mitigating Toxicity in LLMs via Global Toxic Subspace
- arxiv url: http://arxiv.org/abs/2505.17078v1
- Date: Tue, 20 May 2025 08:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.534114
- Title: GloSS over Toxicity: Understanding and Mitigating Toxicity in LLMs via Global Toxic Subspace
- Title(参考訳): 毒性に関するGloSS:グローバルな毒性部分空間によるLSMの毒性の理解と緩和
- Authors: Zenghao Duan, Zhiyi Yin, Zhichao Shi, Liang Pang, Shaoling Jing, Jiayi Wu, Yu Yan, Huawei Shen, Xueqi Cheng,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の毒性発生機構について検討する。
GloSS(Global Toxic Subspace Suppression)は,FFNのパラメータからグローバルな毒性部分空間を同定・除去することにより毒性を緩和する軽量な4段階法である。
- 参考スコア(独自算出の注目度): 62.68664365246247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the underlying mechanisms of toxicity generation in Large Language Models (LLMs) and proposes an effective detoxification approach. Prior work typically considers the Feed-Forward Network (FFN) as the main source of toxicity, representing toxic regions as a set of toxic vectors or layer-wise subspaces. However, our in-depth analysis reveals that the global toxic subspace offers a more effective and comprehensive representation of toxic region within the model. Building on this insight, we propose GloSS (Global Toxic Subspace Suppression), a lightweight, four-stage method that mitigates toxicity by identifying and removing the global toxic subspace from the parameters of FFN. Experiments across a range of LLMs show that GloSS achieves state-of-the-art detoxification performance while preserving the models general capabilities, without requiring large-scale data or model retraining.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) の毒性生成機構について検討し,有効解毒法を提案する。
以前の研究は、通常、フィードフォワードネットワーク(FFN)を毒性の主要な源とみなし、毒性領域を有毒なベクトルの集合または層次部分空間として表している。
しかし、我々の詳細な分析により、大域有毒部分空間はモデル内の有毒領域をより効果的かつ包括的に表現できることがわかった。
この知見に基づいて, FFNのパラメータからグローバル毒性部分空間を同定・除去することにより毒性を緩和する軽量4段階法であるGloSS(Global Toxic Subspace Suppression)を提案する。
実験により、GloSSは大規模データやモデル再訓練を必要とせず、モデル全体の能力を保ちながら最先端の解毒性能を達成することが示された。
関連論文リスト
- PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models [27.996123856250065]
既存の毒性ベンチマークは圧倒的に英語に焦点を当てている。
PTP(PolygloToxicity Prompts)は、17言語にまたがる自然発生プロンプト425Kの大規模多言語毒性評価ベンチマークである。
論文 参考訳(メタデータ) (2024-05-15T14:22:33Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Facilitating Fine-grained Detection of Chinese Toxic Language:
Hierarchical Taxonomy, Resources, and Benchmarks [18.44630180661091]
既存のデータセットには、有害な型や表現の詳細なアノテーションがない。
ポストの毒性を検出するために語彙的知識を導入することが重要である。
本稿では,中国語の有害な言語をきめ細かい検出を容易にする。
論文 参考訳(メタデータ) (2023-05-08T03:50:38Z) - Simple Text Detoxification by Identifying a Linear Toxic Subspace in
Language Model Embeddings [8.720903734757627]
大規模な事前訓練された言語モデルは、しばしば大量のインターネットデータに基づいて訓練される。
現在の方法は、有害な特徴が生成されたテキストに現れるのを防ぐことを目的としている。
我々は、事前訓練された言語モデルの潜在空間に低次元有毒な部分空間が存在することを仮定する。
論文 参考訳(メタデータ) (2021-12-15T18:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。