Fugu-MT 論文翻訳(概要): SafetyBench: Evaluating the Safety of Large Language Models with Multiple Choice Questions

論文の概要: SafetyBench: Evaluating the Safety of Large Language Models with Multiple Choice Questions

arxiv url: http://arxiv.org/abs/2309.07045v1
Date: Wed, 13 Sep 2023 15:56:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-14 13:39:42.224746
Title: SafetyBench: Evaluating the Safety of Large Language Models with Multiple Choice Questions
Title（参考訳）: safetybench: 複数の選択質問による大規模言語モデルの安全性評価
Authors: Zhexin Zhang, Leqi Lei, Lindong Wu, Rui Sun, Yongkang Huang, Chong Long, Xiao Liu, Xuanyu Lei, Jie Tang, Minlie Huang
Abstract要約: SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。 11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
参考スコア（独自算出の注目度）: 56.70459851230943
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid development of Large Language Models (LLMs), increasing attention has been paid to their safety concerns. Consequently, evaluating the safety of LLMs has become an essential task for facilitating the broad applications of LLMs. Nevertheless, the absence of comprehensive safety evaluation benchmarks poses a significant impediment to effectively assess and enhance the safety of LLMs. In this work, we present SafetyBench, a comprehensive benchmark for evaluating the safety of LLMs, which comprises 11,435 diverse multiple choice questions spanning across 7 distinct categories of safety concerns. Notably, SafetyBench also incorporates both Chinese and English data, facilitating the evaluation in both languages. Our extensive tests over 25 popular Chinese and English LLMs in both zero-shot and few-shot settings reveal a substantial performance advantage for GPT-4 over its counterparts, and there is still significant room for improving the safety of current LLMs. We believe SafetyBench will enable fast and comprehensive evaluation of LLMs' safety, and foster the development of safer LLMs. Data and evaluation guidelines are available at https://github.com/thu-coai/SafetyBench. Submission entrance and leaderboard are available at https://llmbench.ai/safety.
Abstract（参考訳）: 大規模言語モデル(llm)の急速な発展に伴い、安全性への懸念に注目が集まっている。したがって, LLMの安全性を評価することは, LLMの幅広い応用を促進する上で重要な課題となっている。それでも、総合的な安全性評価ベンチマークが欠如していることは、LLMの安全性を効果的に評価し、向上させる重要な障害となる。そこで本研究では,安全問題7つのカテゴリにまたがる多様な選択質問11,435項目からなる,llmの安全性評価のための総合ベンチマークであるsafetybenchを提案する。とくにSafetyBenchは、中国語と英語のデータも含み、両方の言語での評価を容易にする。ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回比較した大規模なテストでは、GPT-4に対するパフォーマンス上のアドバンテージが示され、現在のLLMの安全性を向上する余地は依然として大きい。我々は,安全ベンチがLLMの安全性を迅速かつ包括的に評価し,より安全なLLMの開発を促進すると信じている。データと評価のガイドラインはhttps://github.com/thu-coai/safetybenchで入手できる。入場口とリーダーボードはhttps://llmbench.ai/safety.comで入手できる。

関連論文リスト

CFSafety: Comprehensive Fine-grained Safety Assessment for LLMs [4.441767341563709]
5つの古典的安全シナリオと5種類の命令攻撃を統合した安全評価ベンチマークCFSafetyを導入する。このテストセットは、大規模言語モデル(LLM)の自然言語生成能力を評価するために使用された。その結果, GPT-4は安全性能に優れていたが, このモデルを含むLLMの安全性は改善が必要であることがわかった。
論文参考訳（メタデータ） (2024-10-29T03:25:20Z)
Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。 MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文参考訳（メタデータ） (2024-10-08T16:16:07Z)
Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。 textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。 textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文参考訳（メタデータ） (2024-05-22T16:51:07Z)
ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors [90.73444232283371]
ShieldLMは、LLM(Large Language Models)の安全性検出装置で、一般的な安全基準に準拠している。 ShieldLMは4つのテストセットにまたがる強力なベースラインを超えており、優れたカスタマイズ性と説明可能性を示している。
論文参考訳（メタデータ） (2024-02-26T09:43:02Z)
SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文参考訳（メタデータ） (2024-02-07T17:33:54Z)
SC-Safety: A Multi-round Open-ended Question Adversarial Safety Benchmark for Large Language Models in Chinese [21.893992064105085]
大規模言語モデル(LLM)は、社会的知覚に悪影響を及ぼす有害なコンテンツを生成できる。 SuperCLUE-Safety (SC-Safety) は、20以上の安全サブディメンジョンをカバーする4912のオープンエンド質問を備えたマルチラウンドの敵対的ベンチマークである。
論文参考訳（メタデータ） (2023-10-09T16:03:22Z)
All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。 XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文参考訳（メタデータ） (2023-10-02T05:23:34Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。