論文の概要: AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models
- arxiv url: http://arxiv.org/abs/2401.09002v5
- Date: Sat, 3 Aug 2024 06:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 23:46:09.177514
- Title: AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models
- Title(参考訳): AttackEval: 大規模言語モデルにおけるジェイルブレイク攻撃の有効性を評価する方法
- Authors: Dong shu, Mingyu Jin, Chong Zhang, Liangyao Li, Zihao Zhou, Yongfeng Zhang,
- Abstract要約: 本稿では,大規模言語モデルに対するジェイルブレイク攻撃の有効性を評価するための,革新的なフレームワークを提案する。
粗粒度評価と細粒度評価の2つの異なる評価フレームワークを提案する。
我々は、ジェイルブレイクのプロンプトに特化して、総合的な真実データセットを開発する。
- 参考スコア(独自算出の注目度): 29.92550386563915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring the security of large language models (LLMs) against attacks has become increasingly urgent, with jailbreak attacks representing one of the most sophisticated threats. To deal with such risks, we introduce an innovative framework that can help evaluate the effectiveness of jailbreak attacks on LLMs. Unlike traditional binary evaluations focusing solely on the robustness of LLMs, our method assesses the effectiveness of the attacking prompts themselves. We present two distinct evaluation frameworks: a coarse-grained evaluation and a fine-grained evaluation. Each framework uses a scoring range from 0 to 1, offering unique perspectives and allowing for the assessment of attack effectiveness in different scenarios. Additionally, we develop a comprehensive ground truth dataset specifically tailored for jailbreak prompts. This dataset serves as a crucial benchmark for our current study and provides a foundational resource for future research. By comparing with traditional evaluation methods, our study shows that the current results align with baseline metrics while offering a more nuanced and fine-grained assessment. It also helps identify potentially harmful attack prompts that might appear harmless in traditional evaluations. Overall, our work establishes a solid foundation for assessing a broader range of attack prompts in the area of prompt injection.
- Abstract(参考訳): 大規模言語モデル(LLM)の攻撃に対するセキュリティの確保は、最も洗練された脅威の1つとして、ますます緊急になっている。
このようなリスクに対処するため,我々はLDMに対するジェイルブレイク攻撃の有効性を評価する革新的な枠組みを導入する。
LLMのロバスト性にのみ焦点をあてた従来のバイナリ評価とは異なり、本手法は攻撃プロンプト自体の有効性を評価する。
粗粒度評価と細粒度評価の2つの異なる評価フレームワークを提案する。
各フレームワークは0から1までのスコアリング範囲を使用しており、ユニークな視点を提供し、異なるシナリオにおける攻撃の有効性を評価することができる。
さらに,脱獄プロンプトに適した総合的真実データセットを開発した。
このデータセットは、我々の現在の研究にとって重要なベンチマークとなり、将来の研究の基盤となるリソースを提供する。
本研究は,従来の評価手法と比較して,より微妙できめ細かな評価を行いながら,現在の結果が基準値と一致していることを示す。
また、従来の評価では無害に見える可能性のある、潜在的に有害な攻撃プロンプトを特定するのにも役立ちます。
全体として、我々の研究は、即発注射領域における広範囲の攻撃プロンプトを評価するためのしっかりとした基盤を確立している。
関連論文リスト
- A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - MIBench: A Comprehensive Benchmark for Model Inversion Attack and Defense [43.71365087852274]
Model Inversion (MI)攻撃は、ターゲットモデルの出力情報を活用して、プライバシに敏感なトレーニングデータを再構築することを目的としている。
包括的で整合性があり、信頼性の高いベンチマークが欠如していることは、非常に大きな課題である。
この致命的なギャップに対処するため、モデル反転攻撃と防御のための最初の実用的なベンチマーク(textitMIBench)を紹介した。
論文 参考訳(メタデータ) (2024-10-07T16:13:49Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Raccoon: Prompt Extraction Benchmark of LLM-Integrated Applications [8.51254190797079]
本稿では,抽出攻撃に対するモデルの感受性を包括的に評価するRacoonベンチマークを提案する。
本手法は,無防備シナリオと防御シナリオの両方でモデルを評価する。
本研究は,防衛の欠如を契機に,盗難を助長するための普遍的感受性を強調し,保護時に顕著なレジリエンスを示すOpenAIモデルを示した。
論文 参考訳(メタデータ) (2024-06-10T18:57:22Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Deep-Attack over the Deep Reinforcement Learning [26.272161868927004]
敵攻撃の開発により 強化学習が より脆弱になった
本研究は,実効性と盗聴を自然に考慮し,強化学習に基づく攻撃フレームワークを提案する。
また,これらの2つの側面において,攻撃モデルの性能を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2022-05-02T10:58:19Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。