Fugu-MT 論文翻訳(概要): SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models

論文の概要: SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models

arxiv url: http://arxiv.org/abs/2402.05044v1
Date: Wed, 7 Feb 2024 17:33:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 14:13:53.266192
Title: SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models
Title（参考訳）: SALAD-Bench: 大規模言語モデルの階層的で総合的な安全性ベンチマーク
Authors: Lijun Li, Bowen Dong, Ruohui Wang, Xuhao Hu, Wangmeng Zuo, Dahua Lin, Yu Qiao, Jing Shao
Abstract要約: SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。我々の実験は、新興脅威に対するLSMのレジリエンスと、現代の防衛戦術の有効性に光を当てた。
参考スコア（独自算出の注目度）: 112.46733790998024
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the rapidly evolving landscape of Large Language Models (LLMs), ensuring robust safety measures is paramount. To meet this crucial need, we propose \emph{SALAD-Bench}, a safety benchmark specifically designed for evaluating LLMs, attack, and defense methods. Distinguished by its breadth, SALAD-Bench transcends conventional benchmarks through its large scale, rich diversity, intricate taxonomy spanning three levels, and versatile functionalities.SALAD-Bench is crafted with a meticulous array of questions, from standard queries to complex ones enriched with attack, defense modifications and multiple-choice. To effectively manage the inherent complexity, we introduce an innovative evaluators: the LLM-based MD-Judge for QA pairs with a particular focus on attack-enhanced queries, ensuring a seamless, and reliable evaluation. Above components extend SALAD-Bench from standard LLM safety evaluation to both LLM attack and defense methods evaluation, ensuring the joint-purpose utility. Our extensive experiments shed light on the resilience of LLMs against emerging threats and the efficacy of contemporary defense tactics. Data and evaluator are released under \url{https://github.com/OpenSafetyLab/SALAD-BENCH}. Warning: this paper includes examples that may be offensive or harmful.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な発展の中で、堅牢な安全性確保が最重要である。この重要なニーズを満たすために, LLM, 攻撃, 防御方法の評価に特化して設計された安全ベンチマークである \emph{SALAD-Bench} を提案する。 SALAD-Benchは、その規模、多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて従来のベンチマークを超越し、標準的なクエリから、攻撃、防御修正、多重選択に富んだ複雑なものまで、厳密な質問によって構築されている。そこで本研究では,QA 対に対する LLM ベースの MD-Judge という,攻撃強化クエリに特化して,シームレスで信頼性の高い評価を実現する,革新的な評価手法を提案する。 SALAD-Bench を標準 LLM の安全性評価から LLM 攻撃および防御手法評価まで拡張し、共同用途の実用性を確保する。我々の広範な実験は、新興脅威に対するLLMの弾力性と、現代の防衛戦術の有効性に光を当てた。 data と evaluator は \url{https://github.com/opensafetylab/salad-bench} でリリースされる。警告: 本論文は攻撃的あるいは有害な例を含む。

関連論文リスト

Efficient LLM Safety Evaluation through Multi-Agent Debate [18.818180932660294]
本稿では, 批判者, 擁護者, 審査員間の構造化討論を通じて, 小型言語モデル(SLM)を用いた費用効率の高いマルチエージェント判定フレームワークを提案する。安全判断を厳格に評価するために,大規模な人手によるジェイルブレイクベンチマークであるHAJailBenchを構築した。本フレームワークは,推定コストを大幅に削減しつつ,HAJailBench上のGPT-4o判定値に匹敵する一致を実現している。
論文参考訳（メタデータ） (2025-11-09T14:06:55Z)
PandaGuard: Systematic Evaluation of LLM Safety against Jailbreaking Attacks [7.252454104194306]
大きな言語モデル(LLM)は目覚ましい能力を達成したが、ジェイルブレイクとして知られる敵のプロンプトに弱いままである。 LLMの安全性研究への取り組みが増えているにもかかわらず、既存の評価はしばしば断片化され、単独の攻撃や防御技術に焦点が当てられている。 PandaGuardはLLMジェイルブレイクの安全性を攻撃者、ディフェンダー、および審査員で構成されるマルチエージェントシステムとしてモデル化する、統一的でモジュール化されたフレームワークである。
論文参考訳（メタデータ） (2025-05-20T03:14:57Z)
You Can't Eat Your Cake and Have It Too: The Performance Degradation of LLMs with Jailbreak Defense [34.023473699165315]
脱獄防御戦略によるLCMの実用性低下, 安全性向上, 過大に安全なエスカレーションについて検討した。主流のジェイルブレイク防御は、安全性とパフォーマンスの両方を同時に確保できないことに気付きました。
論文参考訳（メタデータ） (2025-01-21T15:24:29Z)
SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文参考訳（メタデータ） (2024-10-29T11:47:01Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
garak: A Framework for Security Probing Large Language Models [16.305837349514505]
garakは、ターゲットとするLarge Language Models(LLM)の脆弱性を発見し、特定するために使用できるフレームワークである。フレームワークのアウトプットは、ターゲットモデルの弱点を記述し、ユニークなコンテキストで脆弱性を構成するものについての情報的な議論に寄与する。
論文参考訳（メタデータ） (2024-06-16T18:18:43Z)
SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文参考訳（メタデータ） (2024-05-30T08:03:15Z)
S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models [46.148439517272024]
生成型大規模言語モデル (LLMs) は、自然言語処理に革命をもたらした。最近の証拠は、LLMが社会規範に反する有害なコンテンツを生成できることを示している。 S-Evalは,新たに定義された包括的リスク分類を持つ自動安全評価フレームワークである。
論文参考訳（メタデータ） (2024-05-23T05:34:31Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)
SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。 11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文参考訳（メタデータ） (2023-09-13T15:56:50Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。