論文の概要: SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.05044v1
- Date: Wed, 7 Feb 2024 17:33:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 14:13:53.266192
- Title: SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large
Language Models
- Title(参考訳): SALAD-Bench: 大規模言語モデルの階層的で総合的な安全性ベンチマーク
- Authors: Lijun Li, Bowen Dong, Ruohui Wang, Xuhao Hu, Wangmeng Zuo, Dahua Lin,
Yu Qiao, Jing Shao
- Abstract要約: SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
我々の実験は、新興脅威に対するLSMのレジリエンスと、現代の防衛戦術の有効性に光を当てた。
- 参考スコア(独自算出の注目度): 112.46733790998024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the rapidly evolving landscape of Large Language Models (LLMs), ensuring
robust safety measures is paramount. To meet this crucial need, we propose
\emph{SALAD-Bench}, a safety benchmark specifically designed for evaluating
LLMs, attack, and defense methods. Distinguished by its breadth, SALAD-Bench
transcends conventional benchmarks through its large scale, rich diversity,
intricate taxonomy spanning three levels, and versatile
functionalities.SALAD-Bench is crafted with a meticulous array of questions,
from standard queries to complex ones enriched with attack, defense
modifications and multiple-choice. To effectively manage the inherent
complexity, we introduce an innovative evaluators: the LLM-based MD-Judge for
QA pairs with a particular focus on attack-enhanced queries, ensuring a
seamless, and reliable evaluation. Above components extend SALAD-Bench from
standard LLM safety evaluation to both LLM attack and defense methods
evaluation, ensuring the joint-purpose utility. Our extensive experiments shed
light on the resilience of LLMs against emerging threats and the efficacy of
contemporary defense tactics. Data and evaluator are released under
\url{https://github.com/OpenSafetyLab/SALAD-BENCH}. Warning: this paper
includes examples that may be offensive or harmful.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な発展の中で、堅牢な安全性確保が最重要である。
この重要なニーズを満たすために, LLM, 攻撃, 防御方法の評価に特化して設計された安全ベンチマークである \emph{SALAD-Bench} を提案する。
SALAD-Benchは、その規模、多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて従来のベンチマークを超越し、標準的なクエリから、攻撃、防御修正、多重選択に富んだ複雑なものまで、厳密な質問によって構築されている。
そこで本研究では,QA 対に対する LLM ベースの MD-Judge という,攻撃強化クエリに特化して,シームレスで信頼性の高い評価を実現する,革新的な評価手法を提案する。
SALAD-Bench を標準 LLM の安全性評価から LLM 攻撃および防御手法評価まで拡張し、共同用途の実用性を確保する。
我々の広範な実験は、新興脅威に対するLLMの弾力性と、現代の防衛戦術の有効性に光を当てた。
data と evaluator は \url{https://github.com/opensafetylab/salad-bench} でリリースされる。
警告: 本論文は攻撃的あるいは有害な例を含む。
関連論文リスト
- ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large
Language Models [44.1948821279342]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。
画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。
我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-29T12:49:45Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - SafetyBench: Evaluating the Safety of Large Language Models with
Multiple Choice Questions [56.70459851230943]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。