論文の概要: S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language Models
- arxiv url: http://arxiv.org/abs/2405.14191v1
- Date: Thu, 23 May 2024 05:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 18:55:13.757344
- Title: S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language Models
- Title(参考訳): S-Eval:大規模言語モデルの安全性評価ベンチマークのための自動および適応型テスト生成
- Authors: Xiaohan Yuan, Jinfeng Li, Dongxia Wang, Yuefeng Chen, Xiaofeng Mao, Longtao Huang, Hui Xue, Wenhai Wang, Kui Ren, Jingyi Wang,
- Abstract要約: 大規模な言語モデルは、その革命的な能力にかなりの注目を集めている。
安全性に関する懸念も高まっている。
S-Evalは,多次元かつオープンな安全評価ベンチマークである。
- 参考スコア(独自算出の注目度): 47.65210244674764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models have gained considerable attention for their revolutionary capabilities. However, there is also growing concern on their safety implications, making a comprehensive safety evaluation for LLMs urgently needed before model deployment. In this work, we propose S-Eval, a new comprehensive, multi-dimensional and open-ended safety evaluation benchmark. At the core of S-Eval is a novel LLM-based automatic test prompt generation and selection framework, which trains an expert testing LLM Mt combined with a range of test selection strategies to automatically construct a high-quality test suite for the safety evaluation. The key to the automation of this process is a novel expert safety-critique LLM Mc able to quantify the riskiness score of a LLM's response, and additionally produce risk tags and explanations. Besides, the generation process is also guided by a carefully designed risk taxonomy with four different levels, covering comprehensive and multi-dimensional safety risks of concern. Based on these, we systematically construct a new and large-scale safety evaluation benchmark for LLMs consisting of 220,000 evaluation prompts, including 20,000 base risk prompts (10,000 in Chinese and 10,000 in English) and 200, 000 corresponding attack prompts derived from 10 popular adversarial instruction attacks against LLMs. Moreover, considering the rapid evolution of LLMs and accompanied safety threats, S-Eval can be flexibly configured and adapted to include new risks, attacks and models. S-Eval is extensively evaluated on 20 popular and representative LLMs. The results confirm that S-Eval can better reflect and inform the safety risks of LLMs compared to existing benchmarks. We also explore the impacts of parameter scales, language environments, and decoding parameters on the evaluation, providing a systematic methodology for evaluating the safety of LLMs.
- Abstract(参考訳): 大規模な言語モデルは、その革命的な能力にかなりの注目を集めている。
しかし、その安全性に関する懸念も高まり、モデル展開に先立って、LLMの総合的な安全性評価が緊急に必要となる。
本研究では,新しい包括的,多次元かつオープンな安全評価ベンチマークであるS-Evalを提案する。
S-Evalのコアには、LLMベースの自動テストプロンプト生成と選択フレームワークがあり、このフレームワークは、専門家によるLSM Mtのテストと、さまざまなテスト選択戦略を組み合わせて、安全性評価のための高品質なテストスイートを自動構築する。
このプロセスの自動化の鍵は、LLMの反応の危険度スコアを定量化し、リスクタグと説明を生成できる、新しい専門家のLLM Mcである。
さらに、生成プロセスは、4つの異なるレベルを持つ慎重に設計されたリスク分類によっても導かれる。
そこで本研究では,2万件のリスクプロンプト(中国語で1万件,英語で1万件)と,10件のLLMに対する敵対的攻撃から得られた20,000件のアタックプロンプトを含む,2万件の評価プロンプトから,LLMに対する新たな大規模安全評価ベンチマークを体系的に構築した。
さらに、LSMの急速な進化とそれに伴う安全上の脅威を考えると、S-Evalは柔軟に設定され、新しいリスク、攻撃、モデルを含むように適応できる。
S-Evalは20のLLMで広く評価されている。
その結果、S-Eval は既存のベンチマークと比較して LLM の安全性のリスクを反映し、報告できることがわかった。
また,パラメータ尺度,言語環境,復号化パラメータが評価に与える影響についても検討し,LLMの安全性を評価するための体系的な方法論を提供する。
関連論文リスト
- SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Threat Modelling and Risk Analysis for Large Language Model (LLM)-Powered Applications [0.0]
大規模言語モデル(LLM)は、高度な自然言語処理機能を提供することによって、様々なアプリケーションに革命をもたらした。
本稿では,LSMを利用したアプリケーションに適した脅威モデリングとリスク分析について検討する。
論文 参考訳(メタデータ) (2024-06-16T16:43:58Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。