論文の概要: SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in
Large Language Models
- arxiv url: http://arxiv.org/abs/2311.08370v1
- Date: Tue, 14 Nov 2023 18:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 13:00:45.974777
- Title: SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in
Large Language Models
- Title(参考訳): SimpleSafetyTests: 大規模言語モデルにおける臨界安全性リスクを特定するテストスイート
- Authors: Bertie Vidgen, Hannah Rose Kirk, Rebecca Qian, Nino Scherrer, Anand
Kannappan, Scott A. Hale, Paul R\"ottger
- Abstract要約: 11の人気のあるオープン言語モデルをテストし、いくつかの重要な安全性の弱点を見つけました。
テストするほとんどのモデルは、20%以上のケースで安全でない応答をしており、極端に50%以上の安全でない応答があります。
開発者は、このようなシステムプロンプトを、重大な安全リスクに対する防御の第一線として使うことを推奨する。
- 参考スコア(独自算出の注目度): 15.896567445646784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past year has seen rapid acceleration in the development of large
language models (LLMs). For many tasks, there is now a wide range of
open-source and open-access LLMs that are viable alternatives to proprietary
models like ChatGPT. Without proper steering and safeguards, however, LLMs will
readily follow malicious instructions, provide unsafe advice, and generate
toxic content. This is a critical safety risk for businesses and developers. We
introduce SimpleSafetyTests as a new test suite for rapidly and systematically
identifying such critical safety risks. The test suite comprises 100 test
prompts across five harm areas that LLMs, for the vast majority of
applications, should refuse to comply with. We test 11 popular open LLMs and
find critical safety weaknesses in several of them. While some LLMs do not give
a single unsafe response, most models we test respond unsafely on more than 20%
of cases, with over 50% unsafe responses in the extreme. Prepending a
safety-emphasising system prompt substantially reduces the occurrence of unsafe
responses, but does not completely stop them from happening. We recommend that
developers use such system prompts as a first line of defence against critical
safety risks.
- Abstract(参考訳): 過去1年間、大規模言語モデル(llm)の開発は急速に加速している。
多くのタスクにおいて、ChatGPTのようなプロプライエタリなモデルの代替となる、幅広いオープンソースおよびオープンアクセス LLM が存在する。
しかし、適切なステアリングとセーフガードがなければ、LSMは容易に悪意のある指示に従い、安全でないアドバイスを提供し、有害なコンテンツを生成する。
これは企業や開発者にとって重大な安全リスクです。
このような重要な安全性リスクを迅速かつ体系的に識別するための新しいテストスイートとしてSimpleSafetyTestsを紹介します。
テストスイートは、5つのハーネス領域にわたる100のテストプロンプトで構成されており、LLMは、ほとんどのアプリケーションにおいて、コンプライアンスを拒否すべきである。
我々は、11の人気のあるオープンLCMをテストし、いくつかの重要な安全性の弱点を見つけます。
一部のLCMは単一の安全でない応答を与えていないが、テスト対象のほとんどのモデルは20%以上のケースで安全ではない応答を示し、極端に50%以上の安全でない応答を与えている。
安全強調システムの導入は、安全でない応答の発生を大幅に減少させるが、完全には停止しない。
開発者は、このようなシステムプロンプトを重要な安全リスクに対する第一線として使うことを推奨する。
関連論文リスト
- CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - GradSafe: Detecting Unsafe Prompts for LLMs via Safety-Critical Gradient
Analysis [10.077926831443067]
LLMにおける安全クリティカルパラメータの勾配を精査することにより、安全でないプロンプトを効果的に検出するGradSafeを提案する。
LLMの安全でないプロンプトに対する損失の勾配とコンプライアンス応答との組み合わせは、特定の安全クリティカルパラメータに類似したパターンを示す。
GradSafeはLlama Guardよりも優れていますが、大きなデータセットで微調整されています。
論文 参考訳(メタデータ) (2024-02-21T03:09:21Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [48.18098860396162]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - On Prompt-Driven Safeguarding for Large Language Models [178.612893285033]
モデル表現空間において、有害で有害なクエリは、大きく区別できるが、これは安全プロンプトによって顕著に強化されない。
そこで本研究では,DRO(Directed Representation Optimization)と呼ばれる自動安全プロンプト最適化手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models [34.75181539924584]
そのようなeXaggerated Safetyの振る舞いを特定するために、XSTestと呼ばれる新しいテストスイートを紹介します。
我々は、XSTestの作成と構成を説明し、それからテストスイートを使用して、最先端の言語モデルにおける体系的な障害モードを強調します。
論文 参考訳(メタデータ) (2023-08-02T16:30:40Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。