論文の概要: Toxicity Detection for Free
- arxiv url: http://arxiv.org/abs/2405.18822v2
- Date: Fri, 08 Nov 2024 01:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:35.726708
- Title: Toxicity Detection for Free
- Title(参考訳): 自由な毒性検出
- Authors: Zhanhao Hu, Julien Piet, Geng Zhao, Jiantao Jiao, David Wagner,
- Abstract要約: LLMイントロスペクション(MULI)を用いたモデレーションを導入し,LSM自体から直接抽出した情報を用いて有害なプロンプトを検出する。
第一応答トークンロジットの疎ロジスティック回帰モデルを用いて有毒なプロンプトのロバスト検出を行う。
- 参考スコア(独自算出の注目度): 16.07605369484645
- License:
- Abstract: Current LLMs are generally aligned to follow safety requirements and tend to refuse toxic prompts. However, LLMs can fail to refuse toxic prompts or be overcautious and refuse benign examples. In addition, state-of-the-art toxicity detectors have low TPRs at low FPR, incurring high costs in real-world applications where toxic examples are rare. In this paper, we introduce Moderation Using LLM Introspection (MULI), which detects toxic prompts using the information extracted directly from LLMs themselves. We found we can distinguish between benign and toxic prompts from the distribution of the first response token's logits. Using this idea, we build a robust detector of toxic prompts using a sparse logistic regression model on the first response token logits. Our scheme outperforms SOTA detectors under multiple metrics.
- Abstract(参考訳): 現在のLSMは一般に安全要件に従うように調整されており、有害なプロンプトを拒否する傾向がある。
しかし、LSMは有害なプロンプトを拒絶したり、過度に注意し、良心的な例を拒否することができない。
さらに、最先端の毒性検知器は、低いFPRで低いTPRを持ち、有害な例が稀な現実世界のアプリケーションに高いコストをもたらす。
本稿では,LSM自体から直接抽出した情報を用いて有害なプロンプトを検出するMULI(Moduleration Using LLM Introspection)を提案する。
第一応答トークンのロジットの分布から良性と有毒のプロンプトを区別できることがわかった。
このアイデアを用いて、第1応答トークンロジット上の疎ロジスティック回帰モデルを用いて、有害なプロンプトのロバスト検出を行う。
提案手法は,SOTA検出器を複数の測定基準で性能良くする。
関連論文リスト
- Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - LLM Detectors Still Fall Short of Real World: Case of LLM-Generated Short News-Like Posts [7.680851067579922]
本稿では、中程度に洗練された攻撃者によって生成される短いニュースのような投稿という、情報操作における重要な設定に焦点を当てる。
既存のLCM検出器は、ゼロショットでも目的訓練でも、その環境での実際の使用準備が整っていないことを実証する。
LLMをまたいで汎用化された目的学習型検出器を開発し、見知らぬ攻撃を行うことができるが、新しい人文テキストへの一般化には失敗する。
論文 参考訳(メタデータ) (2024-09-05T06:55:13Z) - Efficient Detection of Toxic Prompts in Large Language Models [8.794371569341429]
大型言語モデル(LLM)は、有害または非倫理的な反応を誘発する有害なプロンプトを作る悪意のある個人によって利用することができる。
LLMの有害なプロンプトを効率的に検出する軽量グレーボックスであるToxicDetectorを提案する。
ToxicDetectorの精度は96.39%、偽陽性率は2.00%であり、最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-08-21T15:54:04Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
大言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示している。
これらのモデルは、非毒性や脱獄の試みに対するレジリエンスなど、望ましい行動特性を示すことが重要である。
本稿では,パラメータの小さなサブセットを直接編集することで,LLMの特定の振る舞いを効果的に調節できることを観察する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? [70.77691645678804]
人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。
本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。
既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
論文 参考訳(メタデータ) (2024-06-22T23:26:07Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模に有害なプロンプトを自動生成する新しい手法を提案する。
次に,8つのモデルファミリーにまたがる25のLLMの過剰拒絶量を測定するための総合的研究を行った。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z) - Realistic Evaluation of Toxicity in Large Language Models [28.580995165272086]
大規模言語モデル(LLM)は、私たちの専門的および日常生活に不可欠なものになっています。
膨大な量のデータに膨大な多様な知識を与えると、避けられない毒性と偏見に晒される。
本稿では,手作業によるプロンプトを含むToroughly Engineered Toxicityデータセットを紹介する。
論文 参考訳(メタデータ) (2024-05-17T09:42:59Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。