論文の概要: AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models
- arxiv url: http://arxiv.org/abs/2401.09002v4
- Date: Wed, 31 Jul 2024 06:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 20:25:13.795241
- Title: AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models
- Title(参考訳): AttackEval: 大規模言語モデルにおけるジェイルブレイク攻撃の有効性を評価する方法
- Authors: Dong shu, Mingyu Jin, Chong Zhang, Liangyao Li, Zihao Zhou, Yongfeng Zhang,
- Abstract要約: 本稿では,大規模言語モデルに対するジェイルブレイク攻撃の有効性を評価するための,革新的なフレームワークを提案する。
粗粒度評価と細粒度評価の2つの異なる評価フレームワークを提案する。
我々は、ジェイルブレイクのプロンプトに特化して、総合的な真実データセットを開発する。
- 参考スコア(独自算出の注目度): 29.92550386563915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring the security of large language models (LLMs) against attacks has become increasingly urgent, with jailbreak attacks representing one of the most sophisticated threats. To deal with such risks, we introduce an innovative framework that can help evaluate the effectiveness of jailbreak attacks on LLMs. Unlike traditional binary evaluations focusing solely on the robustness of LLMs, our method assesses the effectiveness of the attacking prompts themselves. We present two distinct evaluation frameworks: a coarse-grained evaluation and a fine-grained evaluation. Each framework uses a scoring range from 0 to 1, offering unique perspectives and allowing for the assessment of attack effectiveness in different scenarios. Additionally, we develop a comprehensive ground truth dataset specifically tailored for jailbreak prompts. This dataset serves as a crucial benchmark for our current study and provides a foundational resource for future research. By comparing with traditional evaluation methods, our study shows that the current results align with baseline metrics while offering a more nuanced and fine-grained assessment. It also helps identify potentially harmful attack prompts that might appear harmless in traditional evaluations. Overall, our work establishes a solid foundation for assessing a broader range of attack prompts in the area of prompt injection.
- Abstract(参考訳): 大規模言語モデル(LLM)の攻撃に対するセキュリティの確保は、最も洗練された脅威の1つとして、ますます緊急になっている。
このようなリスクに対処するため,我々はLDMに対するジェイルブレイク攻撃の有効性を評価する革新的な枠組みを導入する。
LLMのロバスト性にのみ焦点をあてた従来のバイナリ評価とは異なり、本手法は攻撃プロンプト自体の有効性を評価する。
粗粒度評価と細粒度評価の2つの異なる評価フレームワークを提案する。
各フレームワークは0から1までのスコアリング範囲を使用しており、ユニークな視点を提供し、異なるシナリオにおける攻撃の有効性を評価することができる。
さらに,脱獄プロンプトに適した総合的真実データセットを開発した。
このデータセットは、我々の現在の研究にとって重要なベンチマークとなり、将来の研究の基盤となるリソースを提供する。
本研究は,従来の評価手法と比較して,より微妙できめ細かな評価を行いながら,現在の結果が基準値と一致していることを示す。
また、従来の評価では無害に見える可能性のある、潜在的に有害な攻撃プロンプトを特定するのにも役立ちます。
全体として、我々の研究は、即発注射領域における広範囲の攻撃プロンプトを評価するためのしっかりとした基盤を確立している。
関連論文リスト
- AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Preference Poisoning Attacks on Reward Model Learning [49.806139447922526]
攻撃者は、目標とする結果の促進または復号化を目標として、好み比較の小さなサブセットを反転させることができることを示す。
最高の攻撃は多くの場合、非常に成功しており、最も極端な場合、100%の成功率を達成することができ、データのわずか0.3%が毒殺されている。
我々はまた、他の種類の毒殺攻撃に対する最先端の防御策が、少なくとも我々の環境では有効性に制限されていることも示している。
論文 参考訳(メタデータ) (2024-02-02T21:45:24Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Towards Good Practices in Evaluating Transfer Adversarial Attacks [23.40245805066479]
我々は、ImageNet上の9つの防御に対する23の代表的な攻撃を網羅し、転送攻撃の包括的評価を行った。
特に,既存の攻撃を5つのカテゴリに分類することを提案する。
また、さまざまな非受容性指標を採用し、よりきめ細かな特徴を探求することで、ステルスネスに特に注意を払っています。
論文 参考訳(メタデータ) (2022-11-17T14:40:31Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Deep-Attack over the Deep Reinforcement Learning [26.272161868927004]
敵攻撃の開発により 強化学習が より脆弱になった
本研究は,実効性と盗聴を自然に考慮し,強化学習に基づく攻撃フレームワークを提案する。
また,これらの2つの側面において,攻撃モデルの性能を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2022-05-02T10:58:19Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - A Comprehensive Evaluation Framework for Deep Model Robustness [44.20580847861682]
ディープニューラルネットワーク(DNN)は、幅広いアプリケーションで顕著なパフォーマンスを達成しています。
彼らは敵の防御を動機付ける敵の例に弱い。
本稿では,包括的で厳密で一貫性のある評価指標を含むモデル評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-24T01:04:25Z) - Benchmarking Adversarial Robustness [47.168521143464545]
我々は、画像分類タスクにおける敵の堅牢性を評価するために、包括的で厳密でコヒーレントなベンチマークを確立する。
評価結果に基づいて,いくつかの重要な知見を導き,今後の研究への洞察を提供する。
論文 参考訳(メタデータ) (2019-12-26T12:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。