論文の概要: A Critical Evaluation of Defenses against Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2505.18333v1
- Date: Fri, 23 May 2025 19:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.347809
- Title: A Critical Evaluation of Defenses against Prompt Injection Attacks
- Title(参考訳): プロンプトインジェクション攻撃に対する防御の批判的評価
- Authors: Yuqi Jia, Zedian Shao, Yupei Liu, Jinyuan Jia, Dawn Song, Neil Zhenqiang Gong,
- Abstract要約: 大型言語モデル (LLM) はインジェクション攻撃に弱い。
いくつかの防衛策が提案され、しばしばこれらの攻撃をうまく緩和すると主張した。
既存の研究は、これらの防衛を評価するための原則的なアプローチを欠いていると論じる。
- 参考スコア(独自算出の注目度): 95.81023801370073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are vulnerable to prompt injection attacks, and several defenses have recently been proposed, often claiming to mitigate these attacks successfully. However, we argue that existing studies lack a principled approach to evaluating these defenses. In this paper, we argue the need to assess defenses across two critical dimensions: (1) effectiveness, measured against both existing and adaptive prompt injection attacks involving diverse target and injected prompts, and (2) general-purpose utility, ensuring that the defense does not compromise the foundational capabilities of the LLM. Our critical evaluation reveals that prior studies have not followed such a comprehensive evaluation methodology. When assessed using this principled approach, we show that existing defenses are not as successful as previously reported. This work provides a foundation for evaluating future defenses and guiding their development. Our code and data are available at: https://github.com/PIEval123/PIEval.
- Abstract(参考訳): 大規模言語モデル(LLM)は、インジェクション攻撃を早めるために脆弱であり、最近いくつかの防衛策が提案され、しばしばこれらの攻撃をうまく緩和すると主張されている。
しかし,本研究は,これらの防衛効果を評価するための原則的アプローチを欠いていると論じる。
本論では,(1)多種多様なターゲットとインジェクトを含む既存および適応的なプロンプトインジェクション攻撃に対して測定された有効性,(2)汎用的実用性,そして,防衛がLLMの基礎的能力を損なわないことを保証すること,の2つの重要な側面における防御評価の必要性を論じる。
我々の批判的評価は、先行研究がそのような包括的評価手法に従わなかったことを示している。
この原理を用いて評価すると、既存の防御は以前報告したほど成功していないことが分かる。
この研究は将来の防衛を評価し、開発を導くための基盤を提供する。
私たちのコードとデータは、https://github.com/PIEval123/PIEval.comで利用可能です。
関連論文リスト
- Decoding FL Defenses: Systemization, Pitfalls, and Remedies [16.907513505608666]
FL(Federated Learning)のディフェンスを評価するためのガイドラインはありません。
FLディフェンスの総合的なシステム化を3次元に沿って設計する。
我々は,トップレベル防衛紙50点を調査し,それらの評価設定でよく使用されるコンポーネントを特定した。
論文 参考訳(メタデータ) (2025-02-03T23:14:02Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models [29.92550386563915]
ジェイルブレイク攻撃は、大規模言語モデル(LLM)のセキュリティに対する最も洗練された脅威の1つである。
LLMに対するジェイルブレイク攻撃の有効性を評価するための,革新的なフレームワークを提案する。
粗粒度評価と細粒度評価の2つの異なる評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-17T06:42:44Z) - Measuring Equality in Machine Learning Security Defenses: A Case Study
in Speech Recognition [56.69875958980474]
この研究は、学習したシステムを守るためのアプローチと、異なるサブ人口間でのセキュリティ防衛がパフォーマンス上の不平等をもたらす方法を検討する。
提案された多くの手法は、虚偽の拒絶やロバストネストレーニングの不平等といった直接的な害を引き起こす可能性がある。
本稿では, ランダム化スムースメントとニューラルリジェクションの2つの防御法の比較を行い, マイノリティ集団のサンプリング機構により, ランダム化スムースメントがより公平であることを見出した。
論文 参考訳(メタデータ) (2023-02-17T16:19:26Z) - Evaluating the Adversarial Robustness of Adaptive Test-time Defenses [60.55448652445904]
このような適応型テストタイムディフェンスを分類し、その潜在的なメリットと欠点を説明します。
残念なことに、適切な評価を行うと、静的モデルが大幅に改善されることはない。
推論コストを同時に増加しながら、基盤となる静的モデルを弱めるものもあります。
論文 参考訳(メタデータ) (2022-02-28T12:11:40Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z) - On Adaptive Attacks to Adversarial Example Defenses [123.32678153377915]
本稿では、敵の事例に対して、防御に対する適応攻撃を行うために必要な方法論とアプローチを概説する。
これらの分析が、敵の事例に対して適切な防御攻撃を行うためのガイダンスとして役立てられることを期待している。
論文 参考訳(メタデータ) (2020-02-19T18:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。