論文の概要: SecReEvalBench: A Multi-turned Security Resilience Evaluation Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.07584v1
- Date: Mon, 12 May 2025 14:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.420967
- Title: SecReEvalBench: A Multi-turned Security Resilience Evaluation Benchmark for Large Language Models
- Title(参考訳): SecReEvalBench: 大規模言語モデルのマルチターンセキュリティレジリエンス評価ベンチマーク
- Authors: Huining Cui, Wei Liu,
- Abstract要約: 本稿ではSecReEvalBench, Security Resilience Evaluation Benchmarkを紹介する。
Prompt Attack Resilience Score、Prompt Attack Refusal Logic Score、ChainベースのAttack Resilience Score、ChainベースのAttack Rejection Time Scoreの4つの新しいメトリクスを定義している。
また、中立的なプロンプトと悪意のあるプロンプトの両方を組み込んだ、ベンチマーク用にカスタマイズされたデータセットも導入しています。
- 参考スコア(独自算出の注目度): 4.788427041690547
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The increasing deployment of large language models in security-sensitive domains necessitates rigorous evaluation of their resilience against adversarial prompt-based attacks. While previous benchmarks have focused on security evaluations with limited and predefined attack domains, such as cybersecurity attacks, they often lack a comprehensive assessment of intent-driven adversarial prompts and the consideration of real-life scenario-based multi-turn attacks. To address this gap, we present SecReEvalBench, the Security Resilience Evaluation Benchmark, which defines four novel metrics: Prompt Attack Resilience Score, Prompt Attack Refusal Logic Score, Chain-Based Attack Resilience Score and Chain-Based Attack Rejection Time Score. Moreover, SecReEvalBench employs six questioning sequences for model assessment: one-off attack, successive attack, successive reverse attack, alternative attack, sequential ascending attack with escalating threat levels and sequential descending attack with diminishing threat levels. In addition, we introduce a dataset customized for the benchmark, which incorporates both neutral and malicious prompts, categorised across seven security domains and sixteen attack techniques. In applying this benchmark, we systematically evaluate five state-of-the-art open-weighted large language models, Llama 3.1, Gemma 2, Mistral v0.3, DeepSeek-R1 and Qwen 3. Our findings offer critical insights into the strengths and weaknesses of modern large language models in defending against evolving adversarial threats. The SecReEvalBench dataset is publicly available at https://kaggle.com/datasets/5a7ee22cf9dab6c93b55a73f630f6c9b42e936351b0ae98fbae6ddaca7fe248d, which provides a groundwork for advancing research in large language model security.
- Abstract(参考訳): セキュリティに敏感なドメインへの大規模言語モデルの展開の増加は、敵のプロンプトベースの攻撃に対するレジリエンスの厳格な評価を必要とする。
以前のベンチマークでは、サイバーセキュリティ攻撃のような限定的で事前定義された攻撃ドメインによるセキュリティ評価に重点を置いていたが、意図駆動型の敵のプロンプトの包括的な評価や、現実のシナリオベースのマルチターン攻撃の考慮が欠如していることが多い。
このギャップに対処するため、SecReEvalBench(SecReEvalBench、セキュリティレジリエンス評価ベンチマーク)という4つの新しいメトリクスを定義します。
さらに、SecReEvalBenchはモデルアセスメントに6つの質問シーケンスを使用する: ワンオフアタック、逐次アタック、逐次逆アタック、代替アタック、エスカレート脅威レベルを持つシーケンシャル上昇アタック、脅威レベルが低下するシーケンシャル降下アタック。
さらに、中立なプロンプトと悪意のあるプロンプトの両方を組み込んだベンチマーク用にカスタマイズされたデータセットを導入し、7つのセキュリティドメインと16の攻撃テクニックを分類した。
このベンチマークを適用して、Llama 3.1、Gemma 2、Mistral v0.3、DeepSeek-R1、Qwen 3の5つの最先端オープンウェイト言語モデルを体系的に評価した。
我々の発見は、進化する敵の脅威に対する防御において、現代の大規模言語モデルの強みと弱みについて、重要な洞察を与えてくれる。
SecReEvalBenchデータセットはhttps://kaggle.com/datasets/5a7ee22c9dab6c93b55a73f630f6c9b42e936351b0ae98fbae6ddaca7fe248dで公開されている。
関連論文リスト
- Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis [3.795071937009966]
アドリアックは機械学習(ML)モデルの整合性を損なう可能性がある。
本稿では,逆ノイズインスタンスが生成されているかどうかを検出するフレームワークを提案する。
適応攻撃を含む8つの最先端攻撃に対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-04T20:25:12Z) - Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks [34.40254709148148]
事前学習された視覚言語モデル(VLM)は、画像および自然言語理解において顕著な性能を示した。
彼らの潜在的な安全性と堅牢性の問題は、敵がシステムを回避し、悪意のある攻撃を通じて有害なコンテンツを生成することを懸念する。
本稿では,マルチモーダルなセマンティック・アップデートに基づいて,敵対的事例の生成を反復的に促進するアタック・チェーン(CoA)を提案する。
論文 参考訳(メタデータ) (2024-11-24T05:28:07Z) - AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models [29.92550386563915]
ジェイルブレイク攻撃は、大規模言語モデル(LLM)のセキュリティに対する最も洗練された脅威の1つである。
LLMに対するジェイルブレイク攻撃の有効性を評価するための,革新的なフレームワークを提案する。
粗粒度評価と細粒度評価の2つの異なる評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-17T06:42:44Z) - MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.70417016955459]
機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。
我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。
9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
論文 参考訳(メタデータ) (2023-02-21T20:26:39Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Adversarial Attack and Defense in Deep Ranking [100.17641539999055]
本稿では,敵対的摂動によって選抜された候補者のランクを引き上げたり下げたりできる,ディープランキングシステムに対する2つの攻撃を提案する。
逆に、全ての攻撃に対するランキングモデルロバスト性を改善するために、反崩壊三重項防御法が提案されている。
MNIST, Fashion-MNIST, CUB200-2011, CARS196およびStanford Online Productsデータセットを用いて, 敵のランク付け攻撃と防御を評価した。
論文 参考訳(メタデータ) (2021-06-07T13:41:45Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。