論文の概要: SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in
Large Language Models
- arxiv url: http://arxiv.org/abs/2311.08370v1
- Date: Tue, 14 Nov 2023 18:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 13:00:45.974777
- Title: SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in
Large Language Models
- Title(参考訳): SimpleSafetyTests: 大規模言語モデルにおける臨界安全性リスクを特定するテストスイート
- Authors: Bertie Vidgen, Hannah Rose Kirk, Rebecca Qian, Nino Scherrer, Anand
Kannappan, Scott A. Hale, Paul R\"ottger
- Abstract要約: 11の人気のあるオープン言語モデルをテストし、いくつかの重要な安全性の弱点を見つけました。
テストするほとんどのモデルは、20%以上のケースで安全でない応答をしており、極端に50%以上の安全でない応答があります。
開発者は、このようなシステムプロンプトを、重大な安全リスクに対する防御の第一線として使うことを推奨する。
- 参考スコア(独自算出の注目度): 15.896567445646784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past year has seen rapid acceleration in the development of large
language models (LLMs). For many tasks, there is now a wide range of
open-source and open-access LLMs that are viable alternatives to proprietary
models like ChatGPT. Without proper steering and safeguards, however, LLMs will
readily follow malicious instructions, provide unsafe advice, and generate
toxic content. This is a critical safety risk for businesses and developers. We
introduce SimpleSafetyTests as a new test suite for rapidly and systematically
identifying such critical safety risks. The test suite comprises 100 test
prompts across five harm areas that LLMs, for the vast majority of
applications, should refuse to comply with. We test 11 popular open LLMs and
find critical safety weaknesses in several of them. While some LLMs do not give
a single unsafe response, most models we test respond unsafely on more than 20%
of cases, with over 50% unsafe responses in the extreme. Prepending a
safety-emphasising system prompt substantially reduces the occurrence of unsafe
responses, but does not completely stop them from happening. We recommend that
developers use such system prompts as a first line of defence against critical
safety risks.
- Abstract(参考訳): 過去1年間、大規模言語モデル(llm)の開発は急速に加速している。
多くのタスクにおいて、ChatGPTのようなプロプライエタリなモデルの代替となる、幅広いオープンソースおよびオープンアクセス LLM が存在する。
しかし、適切なステアリングとセーフガードがなければ、LSMは容易に悪意のある指示に従い、安全でないアドバイスを提供し、有害なコンテンツを生成する。
これは企業や開発者にとって重大な安全リスクです。
このような重要な安全性リスクを迅速かつ体系的に識別するための新しいテストスイートとしてSimpleSafetyTestsを紹介します。
テストスイートは、5つのハーネス領域にわたる100のテストプロンプトで構成されており、LLMは、ほとんどのアプリケーションにおいて、コンプライアンスを拒否すべきである。
我々は、11の人気のあるオープンLCMをテストし、いくつかの重要な安全性の弱点を見つけます。
一部のLCMは単一の安全でない応答を与えていないが、テスト対象のほとんどのモデルは20%以上のケースで安全ではない応答を示し、極端に50%以上の安全でない応答を与えている。
安全強調システムの導入は、安全でない応答の発生を大幅に減少させるが、完全には停止しない。
開発者は、このようなシステムプロンプトを重要な安全リスクに対する第一線として使うことを推奨する。
関連論文リスト
- CFSafety: Comprehensive Fine-grained Safety Assessment for LLMs [4.441767341563709]
5つの古典的安全シナリオと5種類の命令攻撃を統合した安全評価ベンチマークCFSafetyを導入する。
このテストセットは、大規模言語モデル(LLM)の自然言語生成能力を評価するために使用された。
その結果, GPT-4は安全性能に優れていたが, このモデルを含むLLMの安全性は改善が必要であることがわかった。
論文 参考訳(メタデータ) (2024-10-29T03:25:20Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模に有害なプロンプトを自動生成する新しい手法を提案する。
次に,8つのモデルファミリーにまたがる25のLLMの過剰拒絶量を測定するための総合的研究を行った。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models [34.75181539924584]
そのようなeXaggerated Safetyの振る舞いを特定するために、XSTestと呼ばれる新しいテストスイートを紹介します。
我々は、XSTestの作成と構成を説明し、それからテストスイートを使用して、最先端の言語モデルにおける体系的な障害モードを強調します。
論文 参考訳(メタデータ) (2023-08-02T16:30:40Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。