Fugu-MT 論文翻訳(概要): Unveiling the Implicit Toxicity in Large Language Models

論文の概要: Unveiling the Implicit Toxicity in Large Language Models

arxiv url: http://arxiv.org/abs/2311.17391v1
Date: Wed, 29 Nov 2023 06:42:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 22:31:04.966379
Title: Unveiling the Implicit Toxicity in Large Language Models
Title（参考訳）: 大規模言語モデルにおける不必要毒性の解明
Authors: Jiaxin Wen, Pei Ke, Hao Sun, Zhexin Zhang, Chengfei Li, Jinfeng Bai, Minlie Huang
Abstract要約: 大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。 LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
参考スコア（独自算出の注目度）: 77.90933074675543
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The open-endedness of large language models (LLMs) combined with their impressive capabilities may lead to new safety issues when being exploited for malicious use. While recent studies primarily focus on probing toxic outputs that can be easily detected with existing toxicity classifiers, we show that LLMs can generate diverse implicit toxic outputs that are exceptionally difficult to detect via simply zero-shot prompting. Moreover, we propose a reinforcement learning (RL) based attacking method to further induce the implicit toxicity in LLMs. Specifically, we optimize the language model with a reward that prefers implicit toxic outputs to explicit toxic and non-toxic ones. Experiments on five widely-adopted toxicity classifiers demonstrate that the attack success rate can be significantly improved through RL fine-tuning. For instance, the RL-finetuned LLaMA-13B model achieves an attack success rate of 90.04% on BAD and 62.85% on Davinci003. Our findings suggest that LLMs pose a significant threat in generating undetectable implicit toxic outputs. We further show that fine-tuning toxicity classifiers on the annotated examples from our attacking method can effectively enhance their ability to detect LLM-generated implicit toxic language. The code is publicly available at https://github.com/thu-coai/Implicit-Toxicity.
Abstract（参考訳）: 大規模言語モデル(llm)の開放性とその素晴らしい機能の組み合わせは、悪質な使用のために悪用される場合の新たな安全性問題につながる可能性がある。近年の研究では、既存の毒性分類器で容易に検出できる有毒なアウトプットの探索に主眼を置いているが、単純ゼロショットプロンプトによる検出が極めて難しい暗黙的な有毒なアウトプットをLLMが生成できることが示されている。さらに,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。具体的には、明示的な有毒および非有毒の出力に対して暗黙的な有毒な出力を優先する報酬を言語モデルに最適化する。広く検出された5つの毒性分類器の実験では、RL微調整により攻撃成功率が著しく改善できることが示されている。例えば、RL-finetuned LLaMA-13Bモデルは、BADで90.04%、Davinci003で62.85%の攻撃成功率を達成する。その結果,LSMは検出不能な暗黙の有毒な出力を発生させる重大な脅威となることが示唆された。さらに, 攻撃法から得られた注釈例の微調整毒性分類器は, LLMによる暗黙的有害言語の検出能力を効果的に向上できることを示した。コードはhttps://github.com/thu-coai/implicit-toxicityで公開されている。

関連論文リスト

Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。前方伝播中の毒性活性化パターンを動的に検出する。その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文参考訳（メタデータ） (2025-05-28T12:37:06Z)
GloSS over Toxicity: Understanding and Mitigating Toxicity in LLMs via Global Toxic Subspace [62.68664365246247]
本稿では,大規模言語モデル(LLM)の毒性発生機構について検討する。 GloSS(Global Toxic Subspace Suppression)は,FFNのパラメータからグローバルな毒性部分空間を同定・除去することにより毒性を緩和する軽量な4段階法である。
論文参考訳（メタデータ） (2025-05-20T08:29:11Z)
Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文参考訳（メタデータ） (2025-03-17T17:23:50Z)
How Toxic Can You Get? Search-based Toxicity Testing for Large Language Models [0.5597620745943381]
大型言語モデル(LLM)は、有害な応答を発生させる傾向にある場合、大きな損傷を引き起こす可能性がある。毒性に対するLSMの傾きを自動テストするフレームワークであるEvoToxについて紹介する。我々は4つの最先端LCMを用いて定量的・定性的な実験評価を行う。
論文参考訳（メタデータ） (2025-01-03T10:08:49Z)
Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。 ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文参考訳（メタデータ） (2024-10-05T13:30:33Z)
Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。 SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。 Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文参考訳（メタデータ） (2024-10-04T17:45:15Z)
Toxicity Detection for Free [16.07605369484645]
LLMイントロスペクション(MULI)を用いたモデレーションを導入し,LSM自体から直接抽出した情報を用いて有害なプロンプトを検出する。第一応答トークンロジットの疎ロジスティック回帰モデルを用いて有毒なプロンプトのロバスト検出を行う。
論文参考訳（メタデータ） (2024-05-29T07:03:31Z)
PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models [27.996123856250065]
既存の毒性ベンチマークは圧倒的に英語に焦点を当てている。 PTP(PolygloToxicity Prompts)は、17言語にまたがる自然発生プロンプト425Kの大規模多言語毒性評価ベンチマークである。
論文参考訳（メタデータ） (2024-05-15T14:22:33Z)
Towards Building a Robust Toxicity Predictor [13.162016701556725]
本稿では, 有害なテキストサンプルを良性として予測するために, SOTAテキスト分類器に小さな単語レベルの摂動を導入し, 新たな逆攻撃であるtexttToxicTrapを提案する。 2つの新しい目標関数の設計により、ToxicTrapはマルチクラスおよびマルチラベルの有害言語検知器の弱点を特定することができる。
論文参考訳（メタデータ） (2024-04-09T22:56:05Z)
Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文参考訳（メタデータ） (2024-03-21T15:18:30Z)
Leashing the Inner Demons: Self-Detoxification for Language Models [13.576289320208511]
言語モデル(LM)は、トレーニング中に見られる有害な言語を再現(または増幅)することができる。我々は、プロンプト、復号化戦略、学習コーパスが出力に与える影響を分析する。本稿では,言語モデルに対して,新たな大きなコーパスや外部識別器を使わずに「デトックス化」を行うための簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2022-03-06T23:55:12Z)
Poison Attacks against Text Datasets with Conditional Adversarially Regularized Autoencoder [78.01180944665089]
本稿では,自然言語推論(NLI)とテキスト分類システムにおいて致命的な脆弱性を示す。我々はNLPモデルに対する「バックドア中毒」攻撃を提示する。
論文参考訳（メタデータ） (2020-10-06T13:03:49Z)
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文参考訳（メタデータ） (2020-09-24T03:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。