論文の概要: SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in
Large Language Models
- arxiv url: http://arxiv.org/abs/2311.08370v2
- Date: Fri, 16 Feb 2024 09:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 19:54:03.778404
- Title: SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in
Large Language Models
- Title(参考訳): SimpleSafetyTests: 大規模言語モデルにおける臨界安全性リスクを特定するテストスイート
- Authors: Bertie Vidgen, Nino Scherrer, Hannah Rose Kirk, Rebecca Qian, Anand
Kannappan, Scott A. Hale, Paul R\"ottger
- Abstract要約: このような重要な安全性リスクを迅速かつ体系的に識別するための新しいテストスイートとしてSimpleSafetyTests(SST)を紹介します。
テストスイートは、5つのハーネス領域にわたる100のテストプロンプトで構成されており、LLMは、ほとんどのアプリケーションにおいて、コンプライアンスを拒否すべきである。
いくつかのモデルは単一の安全でない応答を与えないが、ほとんどのモデルは20%以上のプロンプトに対して安全でない応答を与え、極端に50%以上の安全でない応答を与える。
- 参考スコア(独自算出の注目度): 15.896567445646784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past year has seen rapid acceleration in the development of large
language models (LLMs). However, without proper steering and safeguards, LLMs
will readily follow malicious instructions, provide unsafe advice, and generate
toxic content. We introduce SimpleSafetyTests (SST) as a new test suite for
rapidly and systematically identifying such critical safety risks. The test
suite comprises 100 test prompts across five harm areas that LLMs, for the vast
majority of applications, should refuse to comply with. We test 11 open-access
and open-source LLMs and four closed-source LLMs, and find critical safety
weaknesses. While some of the models do not give a single unsafe response, most
give unsafe responses to more than 20% of the prompts, with over 50% unsafe
responses in the extreme. Prepending a safety-emphasising system prompt
substantially reduces the occurrence of unsafe responses, but does not
completely stop them from happening. Trained annotators labelled every model
response to SST (n = 3,000). We use these annotations to evaluate five AI
safety filters (which assess whether a models' response is unsafe given a
prompt) as a way of automatically evaluating models' performance on SST. The
filters' performance varies considerably. There are also differences across the
five harm areas, and on the unsafe versus safe responses. The widely-used
Perspective API has 72% accuracy and a newly-created zero-shot prompt to
OpenAI's GPT-4 performs best with 89% accuracy. Content Warning: This paper
contains prompts and responses that relate to child abuse, suicide, self-harm
and eating disorders, scams and fraud, illegal items, and physical harm.
- Abstract(参考訳): 過去1年間、大規模言語モデル(llm)の開発は急速に加速している。
しかし、適切なステアリングとセーフガードがなければ、LSMは容易に悪意のある指示に従い、安全でないアドバイスを提供し、有害なコンテンツを生成する。
このような重要な安全性リスクを迅速かつ体系的に識別するための新しいテストスイートとしてSimpleSafetyTests(SST)を紹介します。
テストスイートは、5つのハーネス領域にわたる100のテストプロンプトで構成されており、LLMは、ほとんどのアプリケーションにおいて、コンプライアンスを拒否すべきである。
我々は,11個のオープンソース LLM と4つのクローズドソース LLM をテストする。
いくつかのモデルは単一の安全でない応答を与えないが、ほとんどのモデルは20%以上のプロンプトに対して安全でない応答を与え、極端に50%以上の安全でない応答を与える。
安全強調システムの導入は、安全でない応答の発生を大幅に減少させるが、完全には停止しない。
訓練されたアノテーションは、SSTに対する全てのモデル応答 (n = 3,000) をラベル付けした。
これらのアノテーションを使用して5つのai安全フィルタ(モデルの応答がプロンプトによって安全でないかどうかを評価する)を評価し、sst上で自動的にモデルのパフォーマンスを評価する。
フィルタの性能は様々である。
5つの危害地域と、安全でないと安全でない対応には違いがある。
広く使用されているパースペクティブAPIは72%の精度で、新たに作成されたOpenAIのGPT-4へのゼロショットプロンプトは89%の精度で最高である。
コンテンツ警告: 本論文は、児童虐待、自殺、自傷行為、摂食障害、詐欺・詐欺、違法品、身体的危害に関連するプロンプトと反応を含む。
関連論文リスト
- MSTS: A Multimodal Safety Test Suite for Vision-Language Models [35.86658426268927]
視覚言語モデル(VLM)は、チャットアシスタントやその他の消費者向けAIアプリケーションにますます統合されている。
明確な危険にもかかわらず、VLMの安全性とマルチモーダル入力によって生じる新たなリスクを評価する研究はほとんどない。
MSTSは、40のきめ細かい危険カテゴリーにわたる400の試験プロンプトから構成される。
我々は、MSTSを10言語に翻訳し、非英語のプロンプトが安全でないモデル応答率を増加させることを示す。
論文 参考訳(メタデータ) (2025-01-17T09:22:35Z) - CFSafety: Comprehensive Fine-grained Safety Assessment for LLMs [4.441767341563709]
5つの古典的安全シナリオと5種類の命令攻撃を統合した安全評価ベンチマークCFSafetyを導入する。
このテストセットは、大規模言語モデル(LLM)の自然言語生成能力を評価するために使用された。
その結果, GPT-4は安全性能に優れていたが, このモデルを含むLLMの安全性は改善が必要であることがわかった。
論文 参考訳(メタデータ) (2024-10-29T03:25:20Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模に有害なプロンプトを自動生成する新しい手法を提案する。
次に,8つのモデルファミリーにまたがる25のLLMの過剰拒絶量を測定するための総合的研究を行った。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models [34.75181539924584]
そのようなeXaggerated Safetyの振る舞いを特定するために、XSTestと呼ばれる新しいテストスイートを紹介します。
我々は、XSTestの作成と構成を説明し、それからテストスイートを使用して、最先端の言語モデルにおける体系的な障害モードを強調します。
論文 参考訳(メタデータ) (2023-08-02T16:30:40Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。