論文の概要: Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study
- arxiv url: http://arxiv.org/abs/2605.14087v1
- Date: Wed, 13 May 2026 20:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.492555
- Title: Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study
- Title(参考訳): 大規模言語モデルにおける毒性の測定と緩和に関する研究
- Authors: Mokshit Surana, Archit Rathod, Akshaj Satishkumar,
- Abstract要約: 大規模言語モデル(LLM)は、Webスケールコーパスでトレーニングする場合、本質的にトレーニングデータから有害なパターンを吸収する。
この現象は現実世界の展開に重大なリスクをもたらす。
モデル再学習を必要とせずに生成を行う推論時間緩和手法であるtextbfDExperts (Decoding-time Experts) の有効性を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), when trained on web-scale corpora, inherently absorb toxic patterns from their training data. This leads to ``toxic degeneration'' where even innocuous prompts can trigger harmful outputs. This phenomenon poses significant risks for real-world deployments. Thus, necessitating effective mitigation strategies that should maintain model utility while ensuring safety. In this comprehensive replication study, we evaluate the efficacy of \textbf{DExperts} (Decoding-time Experts), which is an inference-time mitigation technique that steers generation without requiring model retraining. We structured our research into three systematic phases: (1) establishing baseline toxicity measurements using \textbf{RealToxicityPrompts} on standard GPT-2 models; then (2) implementing and evaluating DExperts to mitigate explicit toxicity; and finally (3) stress-testing the method against implicit hate speech using the adversarial \textbf{ToxiGen} dataset. Our empirical results confirm that while DExperts achieves near-perfect safety rates (100\%) on explicit toxicity benchmarks, it exhibits brittleness against adversarial, implicit hate speech, with safety rates dropping to 98.5\%. Furthermore, we quantify a critical trade-off. The method introduces a $\sim$10x latency penalty (from 0.2s to 2.0s per generation), posing challenges for real-time deployment scenarios. This study contributes to the growing body of work on AI safety by highlighting the robustness gap between explicit and implicit toxicity mitigation. We emphasize the need for more sophisticated approaches that generalize across diverse hate speech patterns without prohibitive computational costs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、Webスケールコーパスでトレーニングする場合、本質的にトレーニングデータから有害なパターンを吸収する。
これは、有害なプロンプトでさえ有害なアウトプットを引き起こす「有害な退化」につながる。
この現象は現実世界の展開に重大なリスクをもたらす。
したがって、安全性を確保しつつ、実用性をモデル化する効果的な緩和戦略が必要である。
本研究では,モデル再学習を必要とせずに生成する推論時間緩和手法であるtextbf{DExperts} (Decoding-time Experts)の有効性を評価する。
本研究は,(1)標準GPT-2モデルに基づくベースライン毒性測定の確立,(2)明示的毒性を軽減するためにDExpertsの実装と評価,(3)逆行的 \textbf{ToxiGen} データセットを用いた暗黙的ヘイトスピーチに対する手法のストレステスト,の3つの段階に構成した。
我々の経験的結果は、DExpertsが明示的な毒性ベンチマークでほぼ完全な安全率(100\%)を達成する一方で、敵対的で暗黙のヘイトスピーチに対する脆さを示し、安全性率は98.5\%に低下することを確認した。
さらに、重要なトレードオフを定量化します。
このメソッドは、$\sim$10xレイテンシペナルティ(世代毎に0.2から2.0まで)を導入し、リアルタイムデプロイメントシナリオの課題を提起する。
この研究は、明示的な毒性軽減と暗黙的な毒性軽減の堅牢性ギャップを強調することによって、AI安全性に関する研究の活発化に寄与する。
我々は、計算コストを抑えることなく多様なヘイトスピーチパターンを一般化する、より洗練されたアプローチの必要性を強調した。
関連論文リスト
- Detoxification for LLM: From Dataset Itself [69.09071947137926]
既存の大規模言語モデルの解毒方法は、主に訓練後の段階や推論時間に焦点をあてるが、データセット自体の毒性の源となるものはほとんどない。
SoCD(Soft Contrastive Decoding:ソフトコントラストデコーディング)で生のコーパスを直接デトックス化しようと試み,LLMが生データの有害なスパンを局所化し書き直ししし,セマンティクスを保存しながら誘導する。
GPT2-XLでは、HSPDは最先端の解毒を達成し、毒性確率(TP)を0.42から0.18に、最大毒性(EMT)を0.43から0.20に減少させる。
論文 参考訳(メタデータ) (2026-04-21T06:12:29Z) - Do Prompts Guarantee Safety? Mitigating Toxicity from LLM Generations through Subspace Intervention [6.808534332444413]
大きな言語モデル(LLM)は強力なテキストジェネレータである。
LLMは、一見無害なプロンプトが与えられたとしても、有害または有害な内容物を生成することができる。
これは深刻な安全性の課題であり、現実世界に害を与える可能性がある。
論文 参考訳(メタデータ) (2026-02-06T11:33:17Z) - Cleansing the Artificial Mind: A Self-Reflective Detoxification Framework for Large Language Models [14.566005698357747]
大言語モデル(LLM)は、顕著な生成能力と自己調節機構の出現を明らかにしている。
我々は, LLMの本来の能力を利用して, 有害な内容を検出する, 完全自己反射脱毒フレームワークを導入する。
我々の発見は、真の自己統制型言語モデルの可能性を強調し、より責任と倫理的に導かれたテキスト生成システムへの道を開いた。
論文 参考訳(メタデータ) (2026-01-16T21:01:26Z) - Associative Poisoning to Generative Machine Learning [5.094623170336122]
我々は連想中毒と呼ばれる新しいデータ中毒技術を紹介した。
トレーニングプロセスの制御を必要とせずに、生成されたデータのきめ細かい特徴を損なう。
この攻撃は、生成された出力中の特定の特徴ペア間の統計的関連を操作するためのトレーニングデータのみを摂動する。
論文 参考訳(メタデータ) (2025-11-07T11:47:33Z) - Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing [77.75609817898035]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。
textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。
ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
論文 参考訳(メタデータ) (2025-09-24T03:40:32Z) - LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models [21.341749351654453]
大規模言語モデル(LLM)による有害なコンテンツの生成は、言語技術の安全なデプロイにおいて重要な課題である。
プロトタイプに基づくコントラッシブ・パープレキシティを目標とした微調整 LLM による暗黙的知識編集とテキスト生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-16T16:49:39Z) - On Practical Aspects of Aggregation Defenses against Data Poisoning
Attacks [58.718697580177356]
悪意のあるトレーニングサンプルを持つディープラーニングモデルに対する攻撃は、データ中毒として知られている。
データ中毒に対する防衛戦略の最近の進歩は、認証された毒性の堅牢性を達成するためのアグリゲーション・スキームの有効性を強調している。
ここでは、Deep Partition Aggregation(ディープ・パーティション・アグリゲーション・アグリゲーション)、代表的アグリゲーション・ディフェンス(アグリゲーション・ディフェンス)に焦点を当て、効率、性能、堅牢性など、その実践的側面を評価する。
論文 参考訳(メタデータ) (2023-06-28T17:59:35Z) - Adding Instructions during Pretraining: Effective Way of Controlling
Toxicity in Language Models [29.505176809305095]
本稿では,その実用性を損なうことなく,モデル毒性を大幅に低減する2つの新しい事前学習データ拡張戦略を提案する。
この2つの戦略は,(1)MEDA:メタデータとして生毒性スコアを付加し,(2)INST:それらの毒性を示すサンプルに指示を加えることである。
以上の結果から,最も優れた性能戦略(INST)は,5つのベンチマークNLPタスクの精度を維持しつつ,毒性の確率を61%まで大幅に低下させることが示唆された。
論文 参考訳(メタデータ) (2023-02-14T23:00:42Z) - Constructing Highly Inductive Contexts for Dialogue Safety through
Controllable Reverse Generation [65.48908724440047]
そこで本稿では,ある応答に条件付けされた逆コンテキストを構築するために,エンフレバース生成と呼ばれる手法を提案する。
我々は,Blender,DialoGPT,Plato2の3種類の事前訓練済み対話モデルをテストする。
論文 参考訳(メタデータ) (2022-12-04T12:23:41Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。