論文の概要: AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on
Large Language Models
- arxiv url: http://arxiv.org/abs/2401.09002v2
- Date: Tue, 13 Feb 2024 02:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:45:06.019338
- Title: AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on
Large Language Models
- Title(参考訳): AttackEval: 大規模言語モデルにおけるジェイルブレイク攻撃の有効性を評価する方法
- Authors: Dong shu, Mingyu Jin, Suiyuan Zhu, Beichen Wang, Zihao Zhou, Chong
Zhang, Yongfeng Zhang
- Abstract要約: 我々は大規模言語モデル(LLM)に対するジェイルブレイク攻撃の有効性を評価するための新しいアプローチを開拓した。
本研究は,粗粒度評価と細粒度評価の2つの異なる評価フレームワークを紹介する。
我々は、ジェイルブレイクに特化された総合的な真実データセットを開発した。
- 参考スコア(独自算出の注目度): 30.163002917288463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In our research, we pioneer a novel approach to evaluate the effectiveness of
jailbreak attacks on Large Language Models (LLMs), such as GPT-4 and LLaMa2,
diverging from traditional robustness-focused binary evaluations. Our study
introduces two distinct evaluation frameworks: a coarse-grained evaluation and
a fine-grained evaluation. Each framework, using a scoring range from 0 to 1,
offers a unique perspective, enabling a more comprehensive and nuanced
evaluation of attack effectiveness and empowering attackers to refine their
attack prompts with greater understanding. Furthermore, we have developed a
comprehensive ground truth dataset specifically tailored for jailbreak tasks.
This dataset not only serves as a crucial benchmark for our current study but
also establishes a foundational resource for future research, enabling
consistent and comparative analyses in this evolving field. Upon meticulous
comparison with traditional evaluation methods, we discovered that our
evaluation aligns with the baseline's trend while offering a more profound and
detailed assessment. We believe that by accurately evaluating the effectiveness
of attack prompts in the Jailbreak task, our work lays a solid foundation for
assessing a wider array of similar or even more complex tasks in the realm of
prompt injection, potentially revolutionizing this field.
- Abstract(参考訳): 本研究では,GPT-4やLLaMa2のような大規模言語モデル(LLM)に対するジェイルブレイク攻撃の有効性を評価する新しい手法を考案し,従来のロバスト性に着目したバイナリ評価から逸脱した。
本研究は,粗粒度評価と細粒度評価の2つの異なる評価フレームワークを紹介する。
それぞれのフレームワークはスコアが0から1の範囲で、ユニークな視点を提供し、より包括的でニュアンスな攻撃効果の評価を可能にし、アタッカーにより深い理解で攻撃プロンプトを洗練させる。
さらに,ジェイルブレイクタスク用に特別に調整した包括的基底真理データセットを開発した。
このデータセットは、現在の研究にとって重要なベンチマークとなるだけでなく、将来の研究のための基礎的なリソースを確立し、この進化分野における一貫性と比較分析を可能にします。
従来の評価手法と微妙に比較した結果,評価はベースラインの傾向と一致し,より深く詳細な評価が得られた。
Jailbreakタスクにおける攻撃プロンプトの有効性を正確に評価することで、当社の作業は、プロンプトインジェクションの領域において、より広い範囲の類似またはさらに複雑なタスクを評価するための確固たる基盤を築き、この分野に革命をもたらす可能性があると考えている。
関連論文リスト
- Preference Poisoning Attacks on Reward Model Learning [49.806139447922526]
攻撃者は、目標とする結果の促進または復号化を目標として、好み比較の小さなサブセットを反転させることができることを示す。
最高の攻撃は多くの場合、非常に成功しており、最も極端な場合、100%の成功率を達成することができ、データのわずか0.3%が毒殺されている。
我々はまた、他の種類の毒殺攻撃に対する最先端の防御策が、少なくとも我々の環境では有効性に制限されていることも示している。
論文 参考訳(メタデータ) (2024-02-02T21:45:24Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Towards Good Practices in Evaluating Transfer Adversarial Attacks [23.40245805066479]
我々は、ImageNet上の9つの防御に対する23の代表的な攻撃を網羅し、転送攻撃の包括的評価を行った。
特に,既存の攻撃を5つのカテゴリに分類することを提案する。
また、さまざまな非受容性指標を採用し、よりきめ細かな特徴を探求することで、ステルスネスに特に注意を払っています。
論文 参考訳(メタデータ) (2022-11-17T14:40:31Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Deep-Attack over the Deep Reinforcement Learning [26.272161868927004]
敵攻撃の開発により 強化学習が より脆弱になった
本研究は,実効性と盗聴を自然に考慮し,強化学習に基づく攻撃フレームワークを提案する。
また,これらの2つの側面において,攻撃モデルの性能を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2022-05-02T10:58:19Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - A Comprehensive Evaluation Framework for Deep Model Robustness [44.20580847861682]
ディープニューラルネットワーク(DNN)は、幅広いアプリケーションで顕著なパフォーマンスを達成しています。
彼らは敵の防御を動機付ける敵の例に弱い。
本稿では,包括的で厳密で一貫性のある評価指標を含むモデル評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-24T01:04:25Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z) - Benchmarking Adversarial Robustness [47.168521143464545]
我々は、画像分類タスクにおける敵の堅牢性を評価するために、包括的で厳密でコヒーレントなベンチマークを確立する。
評価結果に基づいて,いくつかの重要な知見を導き,今後の研究への洞察を提供する。
論文 参考訳(メタデータ) (2019-12-26T12:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。