論文の概要: S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language Models
- arxiv url: http://arxiv.org/abs/2405.14191v3
- Date: Tue, 28 May 2024 11:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 11:18:53.457685
- Title: S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language Models
- Title(参考訳): S-Eval:大規模言語モデルの安全性評価ベンチマークのための自動および適応型テスト生成
- Authors: Xiaohan Yuan, Jinfeng Li, Dongxia Wang, Yuefeng Chen, Xiaofeng Mao, Longtao Huang, Hui Xue, Wenhai Wang, Kui Ren, Jingyi Wang,
- Abstract要約: 大規模な言語モデルは、その革命的な能力にかなりの注目を集めている。
安全性に関する懸念も高まっている。
S-Evalは,多次元かつオープンな安全評価ベンチマークである。
- 参考スコア(独自算出の注目度): 47.65210244674764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models have gained considerable attention for their revolutionary capabilities. However, there is also growing concern on their safety implications, making a comprehensive safety evaluation for LLMs urgently needed before model deployment. In this work, we propose S-Eval, a new comprehensive, multi-dimensional and open-ended safety evaluation benchmark. At the core of S-Eval is a novel LLM-based automatic test prompt generation and selection framework, which trains an expert testing LLM Mt combined with a range of test selection strategies to automatically construct a high-quality test suite for the safety evaluation. The key to the automation of this process is a novel expert safety-critique LLM Mc able to quantify the riskiness score of an LLM's response, and additionally produce risk tags and explanations. Besides, the generation process is also guided by a carefully designed risk taxonomy with four different levels, covering comprehensive and multi-dimensional safety risks of concern. Based on these, we systematically construct a new and large-scale safety evaluation benchmark for LLMs consisting of 220,000 evaluation prompts, including 20,000 base risk prompts (10,000 in Chinese and 10,000 in English) and 200,000 corresponding attack prompts derived from 10 popular adversarial instruction attacks against LLMs. Moreover, considering the rapid evolution of LLMs and accompanied safety threats, S-Eval can be flexibly configured and adapted to include new risks, attacks and models. S-Eval is extensively evaluated on 20 popular and representative LLMs. The results confirm that S-Eval can better reflect and inform the safety risks of LLMs compared to existing benchmarks. We also explore the impacts of parameter scales, language environments, and decoding parameters on the evaluation, providing a systematic methodology for evaluating the safety of LLMs.
- Abstract(参考訳): 大規模な言語モデルは、その革命的な能力にかなりの注目を集めている。
しかし、その安全性に関する懸念も高まり、モデル展開に先立って、LLMの総合的な安全性評価が緊急に必要となる。
本研究では,新しい包括的,多次元かつオープンな安全評価ベンチマークであるS-Evalを提案する。
S-Evalのコアには、LLMベースの自動テストプロンプト生成と選択フレームワークがあり、このフレームワークは、専門家によるLSM Mtのテストと、さまざまなテスト選択戦略を組み合わせることで、安全性評価のための高品質なテストスイートを自動構築する。
このプロセスの自動化の鍵は、LLMの反応の危険度スコアを定量化し、リスクタグと説明を生成できる、新しい専門家のLLM Mcである。
さらに、生成プロセスは、4つの異なるレベルを持つ慎重に設計されたリスク分類によっても導かれる。
そこで我々は,LLMに対して2万件のリスクプロンプト(中国語では10,000件,英語では10,000件)と10万件の攻撃プロンプトを含む2万件の評価プロンプトから,新たな大規模安全性評価ベンチマークを体系的に構築した。
さらに、LSMの急速な進化とそれに伴う安全上の脅威を考えると、S-Evalは柔軟に設定され、新しいリスク、攻撃、モデルを含むように適応できる。
S-Evalは20のLLMで広く評価されている。
その結果、S-Eval は既存のベンチマークと比較して LLM の安全性のリスクを反映し、報告できることがわかった。
また,パラメータ尺度,言語環境,復号化パラメータが評価に与える影響についても検討し,LLMの安全性を評価するための体系的な方法論を提供する。
関連論文リスト
- Threat Modelling and Risk Analysis for Large Language Model (LLM)-Powered Applications [0.0]
大規模言語モデル(LLM)は、高度な自然言語処理機能を提供することによって、様々なアプリケーションに革命をもたらした。
本稿では,LSMを利用したアプリケーションに適した脅威モデリングとリスク分析について検討する。
論文 参考訳(メタデータ) (2024-06-16T16:43:58Z) - ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation [48.54271457765236]
大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図しない、有害なコンテンツも引き出すことができる。
現在の評価ベンチマークでは、LLMが人的価値とどの程度うまく一致しているかを評価するために、専門家が設計した文脈シナリオが採用されている。
本研究では, LLM エージェントの自律的能力を活用し, 奥行き及び適応的アライメント評価を行う評価フレームワーク ALI-Agent を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:57:42Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - R-Judge: Benchmarking Safety Risk Awareness for LLM Agents [28.80884032823204]
大規模言語モデル(LLM)は、現実世界のアプリケーション間で自律的にタスクを完了させる大きな可能性を示している。
本研究は, LLMエージェントの行動安全性を, 多様な環境下でベンチマークする上で必要となる課題に対処する。
R-Judgeは,エージェント間相互作用の記録から安全リスクを判断・同定する上で,LLMの熟練度を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-01-18T14:40:46Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。