論文の概要: Whispering Experts: Neural Interventions for Toxicity Mitigation in Language Models
- arxiv url: http://arxiv.org/abs/2407.12824v1
- Date: Tue, 2 Jul 2024 12:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:37:51.492027
- Title: Whispering Experts: Neural Interventions for Toxicity Mitigation in Language Models
- Title(参考訳): 言語モデルにおける毒性軽減のための神経介入
- Authors: Xavier Suau, Pieter Delobelle, Katherine Metcalf, Armand Joulin, Nicholas Apostoloff, Luca Zappella, Pau Rodríguez,
- Abstract要約: 毒性を規定するニューロンは、有害な文章を識別する能力によって決定できることを示す。
我々は,AUROC適応(AurA)を提案する。これは,事前訓練された任意の大規模言語モデルに適用して毒性を軽減できる介入である。
- 参考スコア(独自算出の注目度): 23.528355254330133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An important issue with Large Language Models (LLMs) is their undesired ability to generate toxic language. In this work, we show that the neurons responsible for toxicity can be determined by their power to discriminate toxic sentences, and that toxic language can be mitigated by reducing their activation levels proportionally to this power. We propose AUROC adaptation (AurA), an intervention that can be applied to any pre-trained LLM to mitigate toxicity. As the intervention is proportional to the ability of each neuron to discriminate toxic content, it is free of any model-dependent hyperparameters. We show that AurA can achieve up to $2.2 \times$ reduction in toxicity with only a $0.72$ perplexity increase. We also show that AurA is effective with models of different scale (from 1.5B to 40B parameters), and its effectiveness in mitigating toxic language, while preserving common-sense zero-shot abilities, holds across all scales. AurA can be combined with pre-prompting strategies, boosting its average mitigation potential from $1.28\times$ to $2.35\times$. Moreover, AurA can counteract adversarial pre-prompts that maliciously elicit toxic content, making it an effective method for deploying safer and less toxic models.
- Abstract(参考訳): LLM(Large Language Models)の大きな問題は、有害な言語を生成するという望ましくない能力である。
本研究は, 有害な文を識別する能力によって毒性を負うニューロンを決定できることを示すとともに, それらの活性化レベルをこの力に比例して減少させることで有害な言語を緩和できることを示す。
AUROCアダプティブ (AurA) は, 予め訓練した LLM に適用して毒性を軽減できる介入法である。
この介入は、各ニューロンが有毒物質を識別する能力に比例するので、モデル依存のハイパーパラメーターは含まない。
我々は、AurAが最大2.2 \times$毒性を減少させ、0.72$パープレキシティの増加しか達成できないことを示した。
また、AurAは異なるスケールのモデル(1.5Bから40Bパラメータ)で有効であり、有害な言語を緩和する上で有効であるが、共通センスゼロショット能力を保ちながら、あらゆるスケールで有効であることを示す。
AurAはプレプロンプティング戦略と組み合わせて、平均緩和可能性を1.28\times$から2.35\times$へと引き上げることができる。
さらに、AurAは有害な内容を有害に引き起こす敵のプレプロンプトに対抗できるため、より安全でより毒性の少ないモデルをデプロイするための効果的な方法である。
関連論文リスト
- FrenchToxicityPrompts: a Large Benchmark for Evaluating and Mitigating Toxicity in French Texts [13.470734853274587]
大規模言語モデル(LLM)はますます普及しているが、バイアス、有害、有害な言語を生み出す傾向にある。
自然発生のフランスプロンプト50Kのデータセットである FrenchToxicityPrompts を作成した。
LLMの4つの主要なオープンソースファミリから14の異なるモデルを評価し,その毒性を評価する。
論文 参考訳(メタデータ) (2024-06-25T14:02:11Z) - Towards Building a Robust Toxicity Predictor [13.162016701556725]
本稿では, 有害なテキストサンプルを良性として予測するために, SOTAテキスト分類器に小さな単語レベルの摂動を導入し, 新たな逆攻撃であるtexttToxicTrapを提案する。
2つの新しい目標関数の設計により、ToxicTrapはマルチクラスおよびマルチラベルの有害言語検知器の弱点を特定することができる。
論文 参考訳(メタデータ) (2024-04-09T22:56:05Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。
創作作業のプロンプトは 有害な反応を 引き起こす確率が 2倍になる
初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文 参考訳(メタデータ) (2023-11-03T14:37:53Z) - Robust Conversational Agents against Imperceptible Toxicity Triggers [29.71051151620196]
我々は,会話エージェントに対する攻撃について,一貫性,関連性,流布性の観点から認識し難いものを提案する。
次に,攻撃を緩和するだけでなく,会話の流れの維持を図るような攻撃に対する防御機構を提案する。
論文 参考訳(メタデータ) (2022-05-05T01:48:39Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。