論文の概要: SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2502.11090v1
- Date: Sun, 16 Feb 2025 12:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:11.123894
- Title: SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks
- Title(参考訳): SafeDialBench: 多様なジェイルブレイク攻撃を伴う多言語対話における大規模言語モデルの詳細な安全性ベンチマーク
- Authors: Hongye Cao, Yanming Wang, Sijia Jing, Ziyue Peng, Zhixin Bai, Zhe Cao, Meng Fang, Fan Feng, Boyan Wang, Jiaheng Liu, Tianpei Yang, Jing Huo, Yang Gao, Fanyu Meng, Xi Yang, Chao Deng, Junlan Feng,
- Abstract要約: 大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。
具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。
特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
- 参考スコア(独自算出の注目度): 46.25325034315104
- License:
- Abstract: With the rapid advancement of Large Language Models (LLMs), the safety of LLMs has been a critical concern requiring precise assessment. Current benchmarks primarily concentrate on single-turn dialogues or a single jailbreak attack method to assess the safety. Additionally, these benchmarks have not taken into account the LLM's capability of identifying and handling unsafe information in detail. To address these issues, we propose a fine-grained benchmark SafeDialBench for evaluating the safety of LLMs across various jailbreak attacks in multi-turn dialogues. Specifically, we design a two-tier hierarchical safety taxonomy that considers 6 safety dimensions and generates more than 4000 multi-turn dialogues in both Chinese and English under 22 dialogue scenarios. We employ 7 jailbreak attack strategies, such as reference attack and purpose reverse, to enhance the dataset quality for dialogue generation. Notably, we construct an innovative assessment framework of LLMs, measuring capabilities in detecting, and handling unsafe information and maintaining consistency when facing jailbreak attacks. Experimental results across 17 LLMs reveal that Yi-34B-Chat and GLM4-9B-Chat demonstrate superior safety performance, while Llama3.1-8B-Instruct and o3-mini exhibit safety vulnerabilities.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩により、LLMの安全性は、正確な評価を必要とする重要な問題となっている。
現在のベンチマークでは、安全性を評価するために、主にシングルターンダイアログや単一のジェイルブレイク攻撃方法に焦点を当てている。
さらに、これらのベンチマークは、LLMが安全でない情報を詳細に識別し処理する能力を考慮していない。
これらの問題に対処するために,マルチターン対話における様々なジェイルブレイク攻撃におけるLLMの安全性を評価するためのベンチマーク SafeDialBench を提案する。
具体的には,6つの安全次元を考慮した2階層型階層型安全分類を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。
我々は,参照攻撃や目的逆といった7つのジェイルブレイク攻撃戦略を用いて,対話生成のためのデータセット品質を向上させる。
特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
17個のLLM実験の結果、Yi-34B-ChatとGLM4-9B-Chatは優れた安全性能を示し、Llama3.1-8B-Instructとo3-miniは安全性の脆弱性を示した。
関連論文リスト
- Diversity Helps Jailbreak Large Language Models [16.34618038553998]
私たちは、大きな言語モデルが以前のコンテキストから逸脱する能力を活用する強力なjailbreakテクニックを発見しました。
LLMに以前の攻撃を逸脱して難読化するように指示するだけで、我々の手法は既存の手法よりも劇的に優れている。
この啓示は、現在のLLM安全性トレーニングにおいて重大な欠陥を露呈しており、既存の手法は脆弱性を取り除くのではなく、単に脆弱性を隠蔽するものであることを示唆している。
論文 参考訳(メタデータ) (2024-11-06T19:39:48Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue Coreference [29.55937864144965]
この研究は,大規模言語モデル(LLM)におけるマルチターン対話コアの安全性を初めて研究したものである。
私たちは14のカテゴリで1,400の質問のデータセットを作成しました。
LLaMA2-Chat-7bモデルでは56%、Mistral-7B-Instructモデルでは13.9%であった。
論文 参考訳(メタデータ) (2024-06-25T15:13:02Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。