論文の概要: AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on
Large Language Models
- arxiv url: http://arxiv.org/abs/2401.09002v1
- Date: Wed, 17 Jan 2024 06:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 16:51:16.622964
- Title: AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on
Large Language Models
- Title(参考訳): AttackEval: 大規模言語モデルにおけるジェイルブレイク攻撃の有効性を評価する方法
- Authors: Dong shu, Mingyu Jin, Suiyuan Zhu, Beichen Wang, Zihao Zhou, Chong
Zhang, Yongfeng Zhang
- Abstract要約: 我々は大規模言語モデル(LLM)に対するジェイルブレイク攻撃の有効性を評価するための新しいアプローチを開拓した。
本研究は,粗粒度評価と細粒度評価の2つの異なる評価フレームワークを紹介する。
我々は、ジェイルブレイクに特化された総合的な真実データセットを開発した。
- 参考スコア(独自算出の注目度): 30.163002917288463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In our research, we pioneer a novel approach to evaluate the effectiveness of
jailbreak attacks on Large Language Models (LLMs), such as GPT-4 and LLaMa2,
diverging from traditional robustness-focused binary evaluations. Our study
introduces two distinct evaluation frameworks: a coarse-grained evaluation and
a fine-grained evaluation. Each framework, using a scoring range from 0 to 1,
offers a unique perspective, enabling a more comprehensive and nuanced
evaluation of attack effectiveness and empowering attackers to refine their
attack prompts with greater understanding. Furthermore, we have developed a
comprehensive ground truth dataset specifically tailored for jailbreak tasks.
This dataset not only serves as a crucial benchmark for our current study but
also establishes a foundational resource for future research, enabling
consistent and comparative analyses in this evolving field. Upon meticulous
comparison with traditional evaluation methods, we discovered that our
evaluation aligns with the baseline's trend while offering a more profound and
detailed assessment. We believe that by accurately evaluating the effectiveness
of attack prompts in the Jailbreak task, our work lays a solid foundation for
assessing a wider array of similar or even more complex tasks in the realm of
prompt injection, potentially revolutionizing this field.
- Abstract(参考訳): 本研究では,GPT-4やLLaMa2のような大規模言語モデル(LLM)に対するジェイルブレイク攻撃の有効性を評価する新しい手法を考案し,従来のロバスト性に着目したバイナリ評価から逸脱した。
本研究は,粗粒度評価と細粒度評価の2つの異なる評価フレームワークを紹介する。
それぞれのフレームワークはスコアが0から1の範囲で、ユニークな視点を提供し、より包括的でニュアンスな攻撃効果の評価を可能にし、アタッカーにより深い理解で攻撃プロンプトを洗練させる。
さらに,ジェイルブレイクタスク用に特別に調整した包括的基底真理データセットを開発した。
このデータセットは、現在の研究にとって重要なベンチマークとなるだけでなく、将来の研究のための基礎的なリソースを確立し、この進化分野における一貫性と比較分析を可能にします。
従来の評価手法と微妙に比較した結果,評価はベースラインの傾向と一致し,より深く詳細な評価が得られた。
Jailbreakタスクにおける攻撃プロンプトの有効性を正確に評価することで、当社の作業は、プロンプトインジェクションの領域において、より広い範囲の類似またはさらに複雑なタスクを評価するための確固たる基盤を築き、この分野に革命をもたらす可能性があると考えている。
関連論文リスト
- Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual Attacks [26.422616504640786]
本稿では,ロジット空間ではなく,確率空間における対角的マージン・アタック(Probability Margin Attack, PMA)を提案する。
我々は、百万スケールのデータセットCC1Mを作成し、それを用いて、敵に訓練されたImageNetモデルの最初の百万スケールの対角ロバスト性評価を行う。
論文 参考訳(メタデータ) (2024-11-20T10:41:23Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。
既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。
ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Raccoon: Prompt Extraction Benchmark of LLM-Integrated Applications [8.51254190797079]
本稿では,抽出攻撃に対するモデルの感受性を包括的に評価するRacoonベンチマークを提案する。
本手法は,無防備シナリオと防御シナリオの両方でモデルを評価する。
本研究は,防衛の欠如を契機に,盗難を助長するための普遍的感受性を強調し,保護時に顕著なレジリエンスを示すOpenAIモデルを示した。
論文 参考訳(メタデータ) (2024-06-10T18:57:22Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Deep-Attack over the Deep Reinforcement Learning [26.272161868927004]
敵攻撃の開発により 強化学習が より脆弱になった
本研究は,実効性と盗聴を自然に考慮し,強化学習に基づく攻撃フレームワークを提案する。
また,これらの2つの側面において,攻撃モデルの性能を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2022-05-02T10:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。