論文の概要: SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in
Large Language Models
- arxiv url: http://arxiv.org/abs/2311.08370v2
- Date: Fri, 16 Feb 2024 09:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 19:54:03.778404
- Title: SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in
Large Language Models
- Title(参考訳): SimpleSafetyTests: 大規模言語モデルにおける臨界安全性リスクを特定するテストスイート
- Authors: Bertie Vidgen, Nino Scherrer, Hannah Rose Kirk, Rebecca Qian, Anand
Kannappan, Scott A. Hale, Paul R\"ottger
- Abstract要約: このような重要な安全性リスクを迅速かつ体系的に識別するための新しいテストスイートとしてSimpleSafetyTests(SST)を紹介します。
テストスイートは、5つのハーネス領域にわたる100のテストプロンプトで構成されており、LLMは、ほとんどのアプリケーションにおいて、コンプライアンスを拒否すべきである。
いくつかのモデルは単一の安全でない応答を与えないが、ほとんどのモデルは20%以上のプロンプトに対して安全でない応答を与え、極端に50%以上の安全でない応答を与える。
- 参考スコア(独自算出の注目度): 15.896567445646784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past year has seen rapid acceleration in the development of large
language models (LLMs). However, without proper steering and safeguards, LLMs
will readily follow malicious instructions, provide unsafe advice, and generate
toxic content. We introduce SimpleSafetyTests (SST) as a new test suite for
rapidly and systematically identifying such critical safety risks. The test
suite comprises 100 test prompts across five harm areas that LLMs, for the vast
majority of applications, should refuse to comply with. We test 11 open-access
and open-source LLMs and four closed-source LLMs, and find critical safety
weaknesses. While some of the models do not give a single unsafe response, most
give unsafe responses to more than 20% of the prompts, with over 50% unsafe
responses in the extreme. Prepending a safety-emphasising system prompt
substantially reduces the occurrence of unsafe responses, but does not
completely stop them from happening. Trained annotators labelled every model
response to SST (n = 3,000). We use these annotations to evaluate five AI
safety filters (which assess whether a models' response is unsafe given a
prompt) as a way of automatically evaluating models' performance on SST. The
filters' performance varies considerably. There are also differences across the
five harm areas, and on the unsafe versus safe responses. The widely-used
Perspective API has 72% accuracy and a newly-created zero-shot prompt to
OpenAI's GPT-4 performs best with 89% accuracy. Content Warning: This paper
contains prompts and responses that relate to child abuse, suicide, self-harm
and eating disorders, scams and fraud, illegal items, and physical harm.
- Abstract(参考訳): 過去1年間、大規模言語モデル(llm)の開発は急速に加速している。
しかし、適切なステアリングとセーフガードがなければ、LSMは容易に悪意のある指示に従い、安全でないアドバイスを提供し、有害なコンテンツを生成する。
このような重要な安全性リスクを迅速かつ体系的に識別するための新しいテストスイートとしてSimpleSafetyTests(SST)を紹介します。
テストスイートは、5つのハーネス領域にわたる100のテストプロンプトで構成されており、LLMは、ほとんどのアプリケーションにおいて、コンプライアンスを拒否すべきである。
我々は,11個のオープンソース LLM と4つのクローズドソース LLM をテストする。
いくつかのモデルは単一の安全でない応答を与えないが、ほとんどのモデルは20%以上のプロンプトに対して安全でない応答を与え、極端に50%以上の安全でない応答を与える。
安全強調システムの導入は、安全でない応答の発生を大幅に減少させるが、完全には停止しない。
訓練されたアノテーションは、SSTに対する全てのモデル応答 (n = 3,000) をラベル付けした。
これらのアノテーションを使用して5つのai安全フィルタ(モデルの応答がプロンプトによって安全でないかどうかを評価する)を評価し、sst上で自動的にモデルのパフォーマンスを評価する。
フィルタの性能は様々である。
5つの危害地域と、安全でないと安全でない対応には違いがある。
広く使用されているパースペクティブAPIは72%の精度で、新たに作成されたOpenAIのGPT-4へのゼロショットプロンプトは89%の精度で最高である。
コンテンツ警告: 本論文は、児童虐待、自殺、自傷行為、摂食障害、詐欺・詐欺、違法品、身体的危害に関連するプロンプトと反応を含む。
関連論文リスト
- GradSafe: Detecting Unsafe Prompts for LLMs via Safety-Critical Gradient
Analysis [10.077926831443067]
LLMにおける安全クリティカルパラメータの勾配を精査することにより、安全でないプロンプトを効果的に検出するGradSafeを提案する。
LLMの安全でないプロンプトに対する損失の勾配とコンプライアンス応答との組み合わせは、特定の安全クリティカルパラメータに類似したパターンを示す。
GradSafeはLlama Guardよりも優れていますが、大きなデータセットで微調整されています。
論文 参考訳(メタデータ) (2024-02-21T03:09:21Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [48.18098860396162]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - On Prompt-Driven Safeguarding for Large Language Models [178.612893285033]
モデル表現空間において、有害で有害なクエリは、大きく区別できるが、これは安全プロンプトによって顕著に強化されない。
そこで本研究では,DRO(Directed Representation Optimization)と呼ばれる自動安全プロンプト最適化手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Fake Alignment: Are LLMs Really Aligned Well? [94.30212931938169]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
Fake alIgNment Evaluation frameworkとConsistency Score(CS)とConsistent Safety Score(CSS)の2つの新しいメトリクスについて紹介する。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in
Large Language Models [34.834611680872314]
そのようなeXaggerated Safetyの振る舞いを特定するために、XSTestと呼ばれる新しいテストスイートを紹介します。
我々は、XSTestの作成と構成を説明し、それからテストスイートを使用して、最先端の言語モデルにおける体系的な障害モードを強調します。
論文 参考訳(メタデータ) (2023-08-02T16:30:40Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。