論文の概要: S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models
- arxiv url: http://arxiv.org/abs/2405.14191v4
- Date: Mon, 07 Apr 2025 07:52:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:06:47.880541
- Title: S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models
- Title(参考訳): S-Eval:大規模言語モデルの自動化と総合的安全性評価を目指して
- Authors: Xiaohan Yuan, Jinfeng Li, Dongxia Wang, Yuefeng Chen, Xiaofeng Mao, Longtao Huang, Jialuo Chen, Hui Xue, Xiaoxia Liu, Wenhai Wang, Kui Ren, Jingyi Wang,
- Abstract要約: 生成型大規模言語モデル (LLMs) は、自然言語処理に革命をもたらした。
最近の証拠は、LLMが社会規範に反する有害なコンテンツを生成できることを示している。
S-Evalは,新たに定義された包括的リスク分類を持つ自動安全評価フレームワークである。
- 参考スコア(独自算出の注目度): 46.148439517272024
- License:
- Abstract: Generative large language models (LLMs) have revolutionized natural language processing with their transformative and emergent capabilities. However, recent evidence indicates that LLMs can produce harmful content that violates social norms, raising significant concerns regarding the safety and ethical ramifications of deploying these advanced models. Thus, it is both critical and imperative to perform a rigorous and comprehensive safety evaluation of LLMs before deployment. Despite this need, owing to the extensiveness of LLM generation space, it still lacks a unified and standardized risk taxonomy to systematically reflect the LLM content safety, as well as automated safety assessment techniques to explore the potential risk efficiently. To bridge the striking gap, we propose S-Eval, a novel LLM-based automated Safety Evaluation framework with a newly defined comprehensive risk taxonomy. S-Eval incorporates two key components, i.e., an expert testing LLM ${M}_t$ and a novel safety critique LLM ${M}_c$. ${M}_t$ is responsible for automatically generating test cases in accordance with the proposed risk taxonomy. ${M}_c$ can provide quantitative and explainable safety evaluations for better risk awareness of LLMs. In contrast to prior works, S-Eval is efficient and effective in test generation and safety evaluation. Moreover, S-Eval can be flexibly configured and adapted to the rapid evolution of LLMs and accompanying new safety threats, test generation methods and safety critique methods thanks to the LLM-based architecture. S-Eval has been deployed in our industrial partner for the automated safety evaluation of multiple LLMs serving millions of users, demonstrating its effectiveness in real-world scenarios. Our benchmark is publicly available at https://github.com/IS2Lab/S-Eval.
- Abstract(参考訳): 生成型大規模言語モデル (LLMs) は、自然言語処理に革命をもたらした。
しかし、近年の証拠は、LLMが社会規範に違反した有害なコンテンツを生成できることを示している。
したがって、展開前のLSMの厳密かつ包括的な安全性評価を行うことは、極めて重要かつ必須である。
この必要性にもかかわらず、LLM生成空間の広範囲性のため、LLMコンテンツの安全性を体系的に反映する統一的で標準化されたリスク分類や、潜在的リスクを効率的に探索する自動安全評価技術はいまだに欠けている。
このギャップを埋めるため,新たに定義された包括的リスク分類を組み込んだ新しいLCMベースの自動安全評価フレームワークであるS-Evalを提案する。
S-Eval には LLM ${M}_t$ と LLM ${M}_c$ という2つの重要なコンポーネントが含まれている。
${M}_t$は、提案されたリスク分類に従ってテストケースを自動的に生成する責任がある。
${M}_c$ は LLM のリスク認識を改善するための定量的かつ説明可能な安全性評価を提供する。
従来の作業とは対照的に、S-Evalは効率が高く、テスト生成や安全性評価に有効である。
さらに、S-Eval は LLM の急速な進化に柔軟に適応し、新しい安全性の脅威、テスト生成方法、および LLM ベースのアーキテクチャによる安全性の批判手法に対応することができる。
S-Evalは、数百万のユーザを対象とした複数のLLMの自動安全性評価のために、当社の産業パートナーにデプロイされています。
私たちのベンチマークはhttps://github.com/IS2Lab/S-Eval.comで公開されています。
関連論文リスト
- SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Threat Modelling and Risk Analysis for Large Language Model (LLM)-Powered Applications [0.0]
大規模言語モデル(LLM)は、高度な自然言語処理機能を提供することによって、様々なアプリケーションに革命をもたらした。
本稿では,LSMを利用したアプリケーションに適した脅威モデリングとリスク分析について検討する。
論文 参考訳(メタデータ) (2024-06-16T16:43:58Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。