論文の概要: Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models
- arxiv url: http://arxiv.org/abs/2502.15086v1
- Date: Thu, 20 Feb 2025 22:58:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:09:57.513071
- Title: Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models
- Title(参考訳): 安全基準は皆に同じか? 大規模言語モデルのユーザ特異的安全性評価
- Authors: Yeonjun In, Wonjoong Kim, Kanghoon Yoon, Sungchul Kim, Mehrab Tanjim, Kibum Kim, Chanyoung Park,
- Abstract要約: LLM安全性のユーザ固有の側面を評価する最初のベンチマークであるU-SAFEBENCHを紹介する。
LLMを広く使用した18種類のLCMを評価した結果,ユーザ固有の安全基準を考慮すると,現在のLCMは安全に動作しないことがわかった。
本稿では,チェーン・オブ・思想に基づく簡単な治療法を提案し,ユーザ固有の安全性向上に有効であることを示す。
- 参考スコア(独自算出の注目度): 26.667869862556973
- License:
- Abstract: As the use of large language model (LLM) agents continues to grow, their safety vulnerabilities have become increasingly evident. Extensive benchmarks evaluate various aspects of LLM safety by defining the safety relying heavily on general standards, overlooking user-specific standards. However, safety standards for LLM may vary based on a user-specific profiles rather than being universally consistent across all users. This raises a critical research question: Do LLM agents act safely when considering user-specific safety standards? Despite its importance for safe LLM use, no benchmark datasets currently exist to evaluate the user-specific safety of LLMs. To address this gap, we introduce U-SAFEBENCH, the first benchmark designed to assess user-specific aspect of LLM safety. Our evaluation of 18 widely used LLMs reveals current LLMs fail to act safely when considering user-specific safety standards, marking a new discovery in this field. To address this vulnerability, we propose a simple remedy based on chain-of-thought, demonstrating its effectiveness in improving user-specific safety. Our benchmark and code are available at https://github.com/yeonjun-in/U-SafeBench.
- Abstract(参考訳): 大きな言語モデル(LLM)エージェントの使用が増加し続けており、その安全性の脆弱性はますます明白になっている。
広範囲なベンチマークは、ユーザ固有の標準を見越して、一般的な標準に大きく依存する安全性を定義することによって、LLMの安全性のさまざまな側面を評価する。
しかし、LLMの安全性基準は、すべてのユーザに対して普遍的に一貫性があるというよりは、ユーザ固有のプロファイルに基づいて異なる可能性がある。
LLMエージェントは、ユーザー固有の安全基準を考慮して安全に行動するのか?
LLMの安全性が重要であるにもかかわらず、LLMのユーザ固有の安全性を評価するためのベンチマークデータセットは存在しない。
このギャップに対処するために,LLM安全性のユーザ固有の側面を評価するために設計された最初のベンチマークであるU-SAFEBENCHを紹介する。
LLMを広く使用した18種類のLCMを評価したところ、ユーザ固有の安全基準を考えると、現在のLCMは安全に動作しないことが明らかとなり、この分野における新たな発見が示唆された。
この脆弱性に対処するため、我々はチェーン・オブ・シントに基づく簡単な治療法を提案し、ユーザ固有の安全性を向上させる効果を実証した。
ベンチマークとコードはhttps://github.com/yeonjun-in/U-SafeBench.comで公開されている。
関連論文リスト
- SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - CFSafety: Comprehensive Fine-grained Safety Assessment for LLMs [4.441767341563709]
5つの古典的安全シナリオと5種類の命令攻撃を統合した安全評価ベンチマークCFSafetyを導入する。
このテストセットは、大規模言語モデル(LLM)の自然言語生成能力を評価するために使用された。
その結果, GPT-4は安全性能に優れていたが, このモデルを含むLLMの安全性は改善が必要であることがわかった。
論文 参考訳(メタデータ) (2024-10-29T03:25:20Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors [90.73444232283371]
ShieldLMは、LLM(Large Language Models)の安全性検出装置で、一般的な安全基準に準拠している。
ShieldLMは4つのテストセットにまたがる強力なベースラインを超えており、優れたカスタマイズ性と説明可能性を示している。
論文 参考訳(メタデータ) (2024-02-26T09:43:02Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。