論文の概要: Do Prompts Guarantee Safety? Mitigating Toxicity from LLM Generations through Subspace Intervention
- arxiv url: http://arxiv.org/abs/2602.06623v1
- Date: Fri, 06 Feb 2026 11:33:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.379907
- Title: Do Prompts Guarantee Safety? Mitigating Toxicity from LLM Generations through Subspace Intervention
- Title(参考訳): プロンプトは安全を保証しているか? : サブスペース干渉によるLSM生成物からの毒性の軽減
- Authors: Himanshu Singh, Ziwei Xu, A. V. Subramanyam, Mohan Kankanhalli,
- Abstract要約: 大きな言語モデル(LLM)は強力なテキストジェネレータである。
LLMは、一見無害なプロンプトが与えられたとしても、有害または有害な内容物を生成することができる。
これは深刻な安全性の課題であり、現実世界に害を与える可能性がある。
- 参考スコア(独自算出の注目度): 6.808534332444413
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are powerful text generators, yet they can produce toxic or harmful content even when given seemingly harmless prompts. This presents a serious safety challenge and can cause real-world harm. Toxicity is often subtle and context-dependent, making it difficult to detect at the token level or through coarse sentence-level signals. Moreover, efforts to mitigate toxicity often face a trade-off between safety and the coherence, or fluency of the generated text. In this work, we present a targeted subspace intervention strategy for identifying and suppressing hidden toxic patterns from underlying model representations, while preserving overall ability to generate safe fluent content. On the RealToxicityPrompts, our method achieves strong mitigation performance compared to existing baselines, with minimal impact on inference complexity. Across multiple LLMs, our approach reduces toxicity of state-of-the-art detoxification systems by 8-20%, while maintaining comparable fluency. Through extensive quantitative and qualitative analyses, we show that our approach achieves effective toxicity reduction without impairing generative performance, consistently outperforming existing baselines.
- Abstract(参考訳): 大きな言語モデル(LLM)は強力なテキストジェネレータであるが、一見無害なプロンプトが与えられたとしても有害または有害なコンテンツを生成することができる。
これは深刻な安全性の課題であり、現実世界に害を与える可能性がある。
毒性はしばしば微妙で文脈に依存しており、トークンレベルや粗い文レベルの信号によって検出することは困難である。
さらに、毒性を緩和する努力は、しばしば、生成したテキストの安全性と一貫性、または流布との間のトレードオフに直面します。
本研究では,隠れた有害なパターンをモデル表現から識別し,抑制するためのサブスペース介入戦略を提案する。
RealToxicityPromptsでは,提案手法は既存のベースラインと比較して高い緩和性能を達成し,推論の複雑さに最小限の影響を与える。
複数のLSMにおいて,本手法は,同等の流速を維持しつつ,最先端の除毒システムの毒性を8~20%低減する。
定量的および定性的な分析により,本手法は生成性能を損なうことなく有効毒性の低減を実現し,既存のベースラインを一貫して上回ることを示す。
関連論文リスト
- Unveiling Covert Toxicity in Multimodal Data via Toxicity Association Graphs: A Graph-Based Metric and Interpretable Detection Framework [58.01529356381494]
Toxicity Association Graphs (TAG) に基づく新しい検出フレームワークを提案する。
隠れ毒性の定量化のための最初の指標であるMTC(Multimodal Toxicity Covertness)を紹介する。
本手法は,意思決定プロセスの完全解釈可能性を維持しつつ,隠蔽毒性の正確な同定を可能にする。
論文 参考訳(メタデータ) (2026-02-03T08:54:25Z) - Cleansing the Artificial Mind: A Self-Reflective Detoxification Framework for Large Language Models [14.566005698357747]
大言語モデル(LLM)は、顕著な生成能力と自己調節機構の出現を明らかにしている。
我々は, LLMの本来の能力を利用して, 有害な内容を検出する, 完全自己反射脱毒フレームワークを導入する。
我々の発見は、真の自己統制型言語モデルの可能性を強調し、より責任と倫理的に導かれたテキスト生成システムへの道を開いた。
論文 参考訳(メタデータ) (2026-01-16T21:01:26Z) - Projecting Out the Malice: A Global Subspace Approach to LLM Detoxification [73.77171973106567]
大規模言語モデル(LLM)は例外的な性能を示すが、有害なコンテンツを生成する固有のリスクを生じさせる。
従来の手法では、パラメータの根底にある有害領域を排除できず、敵の攻撃に弱いモデルを残している。
我々は,このグローバルな部分空間をFFNパラメータから識別・排除することで毒性を緩和する軽量な方法であるGLOSSを提案する。
論文 参考訳(メタデータ) (2026-01-09T09:34:53Z) - Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective [104.09817371557476]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
有害なコンテンツを生み出す可能性には、深刻な安全上の懸念が浮かび上がっている。
毒性検出のための3つの新しいマルチラベルベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T06:50:33Z) - Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing [77.75609817898035]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。
textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。
ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
論文 参考訳(メタデータ) (2025-09-24T03:40:32Z) - GloSS over Toxicity: Understanding and Mitigating Toxicity in LLMs via Global Toxic Subspace [62.68664365246247]
本稿では,大規模言語モデル(LLM)の毒性発生機構について検討する。
GloSS(Global Toxic Subspace Suppression)は,FFNのパラメータからグローバルな毒性部分空間を同定・除去することにより毒性を緩和する軽量な4段階法である。
論文 参考訳(メタデータ) (2025-05-20T08:29:11Z) - Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models [21.341749351654453]
大規模言語モデル(LLM)による有害なコンテンツの生成は、言語技術の安全なデプロイにおいて重要な課題である。
プロトタイプに基づくコントラッシブ・パープレキシティを目標とした微調整 LLM による暗黙的知識編集とテキスト生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-16T16:49:39Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。