論文の概要: Unveiling the Implicit Toxicity in Large Language Models
- arxiv url: http://arxiv.org/abs/2311.17391v1
- Date: Wed, 29 Nov 2023 06:42:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:31:04.966379
- Title: Unveiling the Implicit Toxicity in Large Language Models
- Title(参考訳): 大規模言語モデルにおける不必要毒性の解明
- Authors: Jiaxin Wen, Pei Ke, Hao Sun, Zhexin Zhang, Chengfei Li, Jinfeng Bai,
Minlie Huang
- Abstract要約: 大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
- 参考スコア(独自算出の注目度): 77.90933074675543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The open-endedness of large language models (LLMs) combined with their
impressive capabilities may lead to new safety issues when being exploited for
malicious use. While recent studies primarily focus on probing toxic outputs
that can be easily detected with existing toxicity classifiers, we show that
LLMs can generate diverse implicit toxic outputs that are exceptionally
difficult to detect via simply zero-shot prompting. Moreover, we propose a
reinforcement learning (RL) based attacking method to further induce the
implicit toxicity in LLMs. Specifically, we optimize the language model with a
reward that prefers implicit toxic outputs to explicit toxic and non-toxic
ones. Experiments on five widely-adopted toxicity classifiers demonstrate that
the attack success rate can be significantly improved through RL fine-tuning.
For instance, the RL-finetuned LLaMA-13B model achieves an attack success rate
of 90.04% on BAD and 62.85% on Davinci003. Our findings suggest that LLMs pose
a significant threat in generating undetectable implicit toxic outputs. We
further show that fine-tuning toxicity classifiers on the annotated examples
from our attacking method can effectively enhance their ability to detect
LLM-generated implicit toxic language. The code is publicly available at
https://github.com/thu-coai/Implicit-Toxicity.
- Abstract(参考訳): 大規模言語モデル(llm)の開放性とその素晴らしい機能の組み合わせは、悪質な使用のために悪用される場合の新たな安全性問題につながる可能性がある。
近年の研究では、既存の毒性分類器で容易に検出できる有毒なアウトプットの探索に主眼を置いているが、単純ゼロショットプロンプトによる検出が極めて難しい暗黙的な有毒なアウトプットをLLMが生成できることが示されている。
さらに,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
具体的には、明示的な有毒および非有毒の出力に対して暗黙的な有毒な出力を優先する報酬を言語モデルに最適化する。
広く検出された5つの毒性分類器の実験では、RL微調整により攻撃成功率が著しく改善できることが示されている。
例えば、RL-finetuned LLaMA-13Bモデルは、BADで90.04%、Davinci003で62.85%の攻撃成功率を達成する。
その結果,LSMは検出不能な暗黙の有毒な出力を発生させる重大な脅威となることが示唆された。
さらに, 攻撃法から得られた注釈例の微調整毒性分類器は, LLMによる暗黙的有害言語の検出能力を効果的に向上できることを示した。
コードはhttps://github.com/thu-coai/implicit-toxicityで公開されている。
関連論文リスト
- Can LLMs Recognize Toxicity? Structured Toxicity Investigation Framework
and Semantic-Based Metric [16.423707276483178]
本稿では,Large Language Models (LLMs) に基づく自動ロバストメトリックを導入し,モデル応答が有害かどうかを識別する。
評価データセットを用いて、我々の測定値であるLLMs As ToxiciTy Evaluators (LATTE)を評価する。
実験結果から, 毒性測定の成績は良好であり, F1スコアの12ポイント向上した。
論文 参考訳(メタデータ) (2024-02-10T07:55:27Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Facilitating Fine-grained Detection of Chinese Toxic Language:
Hierarchical Taxonomy, Resources, and Benchmarks [18.44630180661091]
既存のデータセットには、有害な型や表現の詳細なアノテーションがない。
ポストの毒性を検出するために語彙的知識を導入することが重要である。
本稿では,中国語の有害な言語をきめ細かい検出を容易にする。
論文 参考訳(メタデータ) (2023-05-08T03:50:38Z) - Leashing the Inner Demons: Self-Detoxification for Language Models [13.576289320208511]
言語モデル(LM)は、トレーニング中に見られる有害な言語を再現(または増幅)することができる。
我々は、プロンプト、復号化戦略、学習コーパスが出力に与える影響を分析する。
本稿では,言語モデルに対して,新たな大きなコーパスや外部識別器を使わずに「デトックス化」を行うための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-06T23:55:12Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - Fortifying Toxic Speech Detectors Against Veiled Toxicity [38.20984369410193]
本研究では,既存の有毒な音声検出装置を,大規模にラベル付けされた有毒なコーパスを使わずに強化する枠組みを提案する。
ほんの一握りのサンプルが、より偽装された犯罪の桁を表わすのに使われている。
論文 参考訳(メタデータ) (2020-10-07T04:43:48Z) - Poison Attacks against Text Datasets with Conditional Adversarially
Regularized Autoencoder [78.01180944665089]
本稿では,自然言語推論(NLI)とテキスト分類システムにおいて致命的な脆弱性を示す。
我々はNLPモデルに対する「バックドア中毒」攻撃を提示する。
論文 参考訳(メタデータ) (2020-10-06T13:03:49Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。