論文の概要: CASE-Bench: Context-Aware Safety Evaluation Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2501.14940v1
- Date: Fri, 24 Jan 2025 21:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:44.401865
- Title: CASE-Bench: Context-Aware Safety Evaluation Benchmark for Large Language Models
- Title(参考訳): Case-Bench: 大規模言語モデルのコンテキスト認識型安全性評価ベンチマーク
- Authors: Guangzhi Sun, Xiao Zhan, Shutong Feng, Philip C. Woodland, Jose Such,
- Abstract要約: 大規模言語モデル(LLM)の安全性評価にコンテキストを組み込んだコンテキスト認識型安全評価ベンチマークであるCASE-Benchを紹介する。
Case-Benchは、コンテキスト整合性理論に基づく分類されたクエリに、明確に記述されたコンテキストを割り当てる。
本分析は, 安全性評価における文脈の必要性を強調し, 文脈が人間の判断に大きく, 重大な影響があることを明らかにする。
- 参考スコア(独自算出の注目度): 12.385397523940277
- License:
- Abstract: Aligning large language models (LLMs) with human values is essential for their safe deployment and widespread adoption. Current LLM safety benchmarks often focus solely on the refusal of individual problematic queries, which overlooks the importance of the context where the query occurs and may cause undesired refusal of queries under safe contexts that diminish user experience. Addressing this gap, we introduce CASE-Bench, a Context-Aware Safety Evaluation Benchmark that integrates context into safety assessments of LLMs. CASE-Bench assigns distinct, formally described contexts to categorized queries based on Contextual Integrity theory. Additionally, in contrast to previous studies which mainly rely on majority voting from just a few annotators, we recruited a sufficient number of annotators necessary to ensure the detection of statistically significant differences among the experimental conditions based on power analysis. Our extensive analysis using CASE-Bench on various open-source and commercial LLMs reveals a substantial and significant influence of context on human judgments (p<0.0001 from a z-test), underscoring the necessity of context in safety evaluations. We also identify notable mismatches between human judgments and LLM responses, particularly in commercial models within safe contexts.
- Abstract(参考訳): 大きな言語モデル(LLM)を人的価値と整合させることは、安全なデプロイメントと広く採用するために不可欠である。
現在のLLM安全性ベンチマークは、クエリが発生するコンテキストの重要性を無視し、ユーザエクスペリエンスを低下させる安全なコンテキスト下でのクエリの望ましくない拒絶を引き起こす、個々の問題クエリの拒絶にのみフォーカスすることが多い。
このギャップに対処するために,LLMの安全性評価にコンテキストを組み込んだコンテキスト認識型安全評価ベンチマークであるCASE-Benchを紹介する。
Case-Benchは、コンテキスト整合性理論に基づく分類されたクエリに、明確に記述されたコンテキストを割り当てる。
さらに,少数のアノテータの多数決に大きく依存する従来の研究とは対照的に,パワー分析に基づく実験条件間の統計的に有意な差を検出するのに必要なアノテータを,十分な数のアノテータを募集した。
各種オープンソースおよび商用LCM上でのCASE-Benchを用いた広範囲な分析により,安全性評価におけるコンテキストの必要性が人的判断(z-testからp<0.0001)に与える影響が明らかとなった。
また,安全条件下での商業モデルにおいて,人間の判断とLLM反応の一致が顕著であることも確認した。
関連論文リスト
- SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。