論文の概要: CySecBench: Generative AI-based CyberSecurity-focused Prompt Dataset for Benchmarking Large Language Models
- arxiv url: http://arxiv.org/abs/2501.01335v1
- Date: Thu, 02 Jan 2025 16:37:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:08.615683
- Title: CySecBench: Generative AI-based CyberSecurity-focused Prompt Dataset for Benchmarking Large Language Models
- Title(参考訳): CySecBench: 大規模言語モデルのベンチマークのための生成AIベースのサイバーセキュリティにフォーカスしたプロンプトデータセット
- Authors: Johan Wahréus, Ahmed Mohamed Hussain, Panos Papadimitratos,
- Abstract要約: CySecBenchは、サイバーセキュリティドメインのジェイルブレイク技術を評価するために特別に設計された12のプロンプトを含む包括的なデータセットである。
データセットは10の異なるアタックタイプカテゴリに分類され、ジェイルブレイクの試みをより一貫性のある正確な評価を可能にする、厳密なプロンプトが特徴である。
実験の結果,商業用ブラックボックスLLMから有害成分を抽出し,ChatGPTで65%,Geminiで88%の成功率を達成できた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Numerous studies have investigated methods for jailbreaking Large Language Models (LLMs) to generate harmful content. Typically, these methods are evaluated using datasets of malicious prompts designed to bypass security policies established by LLM providers. However, the generally broad scope and open-ended nature of existing datasets can complicate the assessment of jailbreaking effectiveness, particularly in specific domains, notably cybersecurity. To address this issue, we present and publicly release CySecBench, a comprehensive dataset containing 12662 prompts specifically designed to evaluate jailbreaking techniques in the cybersecurity domain. The dataset is organized into 10 distinct attack-type categories, featuring close-ended prompts to enable a more consistent and accurate assessment of jailbreaking attempts. Furthermore, we detail our methodology for dataset generation and filtration, which can be adapted to create similar datasets in other domains. To demonstrate the utility of CySecBench, we propose and evaluate a jailbreaking approach based on prompt obfuscation. Our experimental results show that this method successfully elicits harmful content from commercial black-box LLMs, achieving Success Rates (SRs) of 65% with ChatGPT and 88% with Gemini; in contrast, Claude demonstrated greater resilience with a jailbreaking SR of 17%. Compared to existing benchmark approaches, our method shows superior performance, highlighting the value of domain-specific evaluation datasets for assessing LLM security measures. Moreover, when evaluated using prompts from a widely used dataset (i.e., AdvBench), it achieved an SR of 78.5%, higher than the state-of-the-art methods.
- Abstract(参考訳): 大規模言語モデル(LLM)をジェイルブレイクして有害なコンテンツを生成する方法について,多くの研究がなされている。
通常、これらの手法はLLMプロバイダが確立したセキュリティポリシーを回避すべく設計された悪意のあるプロンプトのデータセットを用いて評価される。
しかし、既存のデータセットの全般的な範囲とオープンな性質は、特に特定のドメイン、特にサイバーセキュリティにおいて、ジェイルブレイクの有効性の評価を複雑にする可能性がある。
この問題に対処するため、サイバーセキュリティ領域のジェイルブレイク技術を評価するために特別に設計された12662プロンプトを含む包括的なデータセットであるCySecBenchを公開・公開する。
データセットは10の異なるアタックタイプカテゴリに分類され、ジェイルブレイクの試みをより一貫性のある正確な評価を可能にする、厳密なプロンプトが特徴である。
さらに、他のドメインで類似したデータセットを作成するために適応できるデータセット生成とフィルタリングの方法論について詳述する。
本稿では,CySecBenchの有効性を示すために,迅速な難読化に基づくジェイルブレイク手法を提案し,評価する。
実験の結果,商業用ブラックボックスLLMから有害成分を抽出し,ChatGPTで65%,Geminiで88%を達成できた。
既存のベンチマーク手法と比較して,本手法は優れた性能を示し,LLMのセキュリティ対策を評価するためのドメイン固有の評価データセットの価値を強調した。
さらに、広く使われているデータセット(すなわちAdvBench)からのプロンプトを用いて評価すると、最先端の手法よりも78.5%高いSRを達成した。
関連論文リスト
- xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors [15.861833242429228]
本稿では,RAG(Retrieval-Augmented Generation)システムの知識データベースを対象としたデータ抽出攻撃について検討する。
この脆弱性を明らかにするために, LLM内にバックドアを作成するために, 微調整期間中に少量の有毒データを注入するバックドアRAGを提案する。
論文 参考訳(メタデータ) (2024-11-03T22:27:40Z) - Evaluating LLM-based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)に基づく個人情報抽出をベンチマークすることができる。
LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。
プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Can LLMs Deeply Detect Complex Malicious Queries? A Framework for Jailbreaking via Obfuscating Intent [3.380948804946178]
IntentObfuscatorという新しいブラックボックスジェイルブレイク攻撃手法を導入する。
本稿では,ChatGPT-3.5,ChatGPT-4,Qwen,Baichuanなど,複数のモデルを対象としたIntentObfuscator法の有効性を実証的に検証した。
私たちは、グラフィック暴力、人種差別、性差別、政治的敏感さ、サイバーセキュリティの脅威、犯罪スキルなど、さまざまな種類のセンシティブなコンテンツに検証を拡張します。
論文 参考訳(メタデータ) (2024-05-06T17:26:34Z) - CodeChameleon: Personalized Encryption Framework for Jailbreaking Large
Language Models [49.60006012946767]
パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。
我々は、7つの大規模言語モデルに関する広範な実験を行い、最先端の平均アタック成功率(ASR)を達成する。
GPT-4-1106上で86.6%のASRを実現する。
論文 参考訳(メタデータ) (2024-02-26T16:35:59Z) - AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models [29.92550386563915]
本稿では,大規模言語モデルに対するジェイルブレイク攻撃の有効性を評価するための,革新的なフレームワークを提案する。
粗粒度評価と細粒度評価の2つの異なる評価フレームワークを提案する。
我々は、ジェイルブレイクのプロンプトに特化して、総合的な真実データセットを開発する。
論文 参考訳(メタデータ) (2024-01-17T06:42:44Z) - SPEED: Secure, PrivatE, and Efficient Deep learning [2.283665431721732]
私たちは、強力なプライバシー制約に対処できるディープラーニングフレームワークを導入します。
協調学習、差分プライバシー、同型暗号化に基づいて、提案手法は最先端技術に進化する。
論文 参考訳(メタデータ) (2020-06-16T19:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。