論文の概要: InjecGuard: Benchmarking and Mitigating Over-defense in Prompt Injection Guardrail Models
- arxiv url: http://arxiv.org/abs/2410.22770v1
- Date: Wed, 30 Oct 2024 07:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:29:02.657279
- Title: InjecGuard: Benchmarking and Mitigating Over-defense in Prompt Injection Guardrail Models
- Title(参考訳): InjecGuard: プロンプトインジェクションガードレールモデルにおける過剰防御のベンチマークと緩和
- Authors: Hao Li, Xiaogeng Liu, Chaowei Xiao,
- Abstract要約: プロンプトインジェクション攻撃は大規模言語モデル(LLM)に重大な脅威をもたらす
プロンプトガードモデルは防御に有効であるが、単語バイアスの引き金として過防衛に苦しむ。
InjecGuardは、新しいトレーニング戦略であるMitigating Over-defense for Freeを取り入れた、新しいプロンプトガードモデルである。
- 参考スコア(独自算出の注目度): 28.943665325110995
- License:
- Abstract: Prompt injection attacks pose a critical threat to large language models (LLMs), enabling goal hijacking and data leakage. Prompt guard models, though effective in defense, suffer from over-defense -- falsely flagging benign inputs as malicious due to trigger word bias. To address this issue, we introduce NotInject, an evaluation dataset that systematically measures over-defense across various prompt guard models. NotInject contains 339 benign samples enriched with trigger words common in prompt injection attacks, enabling fine-grained evaluation. Our results show that state-of-the-art models suffer from over-defense issues, with accuracy dropping close to random guessing levels (60%). To mitigate this, we propose InjecGuard, a novel prompt guard model that incorporates a new training strategy, Mitigating Over-defense for Free (MOF), which significantly reduces the bias on trigger words. InjecGuard demonstrates state-of-the-art performance on diverse benchmarks including NotInject, surpassing the existing best model by 30.8%, offering a robust and open-source solution for detecting prompt injection attacks. The code and datasets are released at https://github.com/SaFoLab-WISC/InjecGuard.
- Abstract(参考訳): プロンプトインジェクション攻撃は、大きな言語モデル(LLM)に重大な脅威を与え、ゴールのハイジャックとデータ漏洩を可能にする。
プロンプトガードモデルは、防衛に効果があるものの、過防衛に苦しむ。
この問題に対処するために、さまざまなプロンプトガードモデル間で過防衛を体系的に計測する評価データセットであるNotInjectを紹介した。
NotInjectには339の良性サンプルが含まれており、トリガー語がインジェクション攻撃に共通しており、きめ細かい評価を可能にする。
以上の結果から,最先端モデルでは過防衛問題が発生し,精度はランダムな推定値(60%)に近づいた。
これを軽減するために,新たなトレーニング戦略であるMOF(Mitigating Over-defense for Free)を取り入れた新しいプロンプトガードモデルであるInjecGuardを提案する。
InjecGuard氏は、NotInjectを含む様々なベンチマークで最先端のパフォーマンスを示し、既存の最高のモデルを30.8%上回り、迅速なインジェクション攻撃を検出する堅牢でオープンソースのソリューションを提供する。
コードとデータセットはhttps://github.com/SaFoLab-WISC/InjecGuardで公開されている。
関連論文リスト
- QUEEN: Query Unlearning against Model Extraction [22.434812818540966]
モデル抽出攻撃は、ディープラーニングモデルのセキュリティとプライバシに対して、無視できない脅威となる。
本稿では,QUEEN(QUEry unlEarNing)を提案する。
論文 参考訳(メタデータ) (2024-07-01T13:01:41Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。
フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。
我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文 参考訳(メタデータ) (2023-10-19T15:12:09Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Defending against the Label-flipping Attack in Federated Learning [5.769445676575767]
フェデレーテッド・ラーニング(FL)は、参加する仲間にデザインによる自律性とプライバシを提供する。
ラベルフリッピング(LF)攻撃(英: label-flipping, LF)は、攻撃者がラベルをめくってトレーニングデータに毒を盛る攻撃である。
本稿では、まず、ピアのローカル更新からこれらの勾配を動的に抽出する新しいディフェンスを提案する。
論文 参考訳(メタデータ) (2022-07-05T12:02:54Z) - SPECTRE: Defending Against Backdoor Attacks Using Robust Statistics [44.487762480349765]
少量の中毒データは、攻撃者が特定した透かしによって、訓練されたモデルの行動を変える。
堅牢な共分散推定を用いて,破損したデータのスペクトルシグネチャを増幅する,新たな防御アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-22T20:49:40Z) - ExAD: An Ensemble Approach for Explanation-based Adversarial Detection [17.455233006559734]
説明手法のアンサンブルを用いて逆例を検出するフレームワークであるExADを提案する。
3つの画像データセットに対する6つの最先端の敵攻撃によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2021-03-22T00:53:07Z) - Concealed Data Poisoning Attacks on NLP Models [56.794857982509455]
逆攻撃はテスト時間入力の摂動によってNLPモデル予測を変化させる。
我々は,入力に所望のトリガーフレーズが存在する場合,相手がモデル予測を制御できる新しいデータ中毒攻撃を開発した。
論文 参考訳(メタデータ) (2020-10-23T17:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。