論文の概要: PromptShield: Deployable Detection for Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2501.15145v2
- Date: Sat, 12 Apr 2025 02:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:43:33.264599
- Title: PromptShield: Deployable Detection for Prompt Injection Attacks
- Title(参考訳): PromptShield: プロンプトインジェクション攻撃のデプロイ可能な検出
- Authors: Dennis Jacob, Hend Alzahrani, Zhanhao Hu, Basel Alomair, David Wagner,
- Abstract要約: 本稿では、デプロイ可能なプロンプトインジェクション検出器のトレーニングと評価のためのベンチマークであるPromptShieldを紹介する。
我々のベンチマークは慎重にキュレートされ、対話型データとアプリケーション構造化データの両方を含んでいる。
我々の研究は、トレーニングデータとより大きなモデルの慎重なキュレーションが、強力な検出器性能に寄与することを示唆している。
- 参考スコア(独自算出の注目度): 1.8146155083014202
- License:
- Abstract: Application designers have moved to integrate large language models (LLMs) into their products. However, many LLM-integrated applications are vulnerable to prompt injections. While attempts have been made to address this problem by building prompt injection detectors, many are not yet suitable for practical deployment. To support research in this area, we introduce PromptShield, a benchmark for training and evaluating deployable prompt injection detectors. Our benchmark is carefully curated and includes both conversational and application-structured data. In addition, we use insights from our curation process to fine-tune a new prompt injection detector that achieves significantly higher performance in the low false positive rate (FPR) evaluation regime compared to prior schemes. Our work suggests that careful curation of training data and larger models can contribute to strong detector performance.
- Abstract(参考訳): アプリケーションデザイナは、大規模な言語モデル(LLM)を製品に統合するために動きました。
しかし、多くのLLM統合アプリケーションはインジェクションの迅速化に弱い。
インジェクション・インジェクション・インジェクション・インジェクション(英語版)を構築することでこの問題に対処する試みがなされているが、その多くがまだ実用化に適していない。
この分野での研究を支援するために,デプロイ可能なプロンプトインジェクション検出器のトレーニングと評価のためのベンチマークであるPromptShieldを紹介した。
我々のベンチマークは慎重にキュレートされ、対話型データとアプリケーション構造化データの両方を含んでいる。
さらに、我々はキュレーションプロセスからの洞察を用いて、従来のスキームに比べて低い偽陽性率(FPR)評価方式において、大幅に高い性能を達成する新しいプロンプトインジェクション検出器を微調整する。
我々の研究は、トレーニングデータとより大きなモデルの慎重なキュレーションが、強力な検出器性能に寄与することを示唆している。
関連論文リスト
- Prompt Inject Detection with Generative Explanation as an Investigative Tool [0.0]
大規模言語モデル(LLM)は、敵のプロンプトベースのインジェクションに対して脆弱である。
本研究では, LLMのテキスト生成機能を用いて, インジェクションの検出を行う。
論文 参考訳(メタデータ) (2025-02-16T06:16:00Z) - MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。
我々は新しいIPI防御であるMELONを提示する。
MELONは攻撃防止と実用保存の両方においてSOTA防御に優れていた。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection [6.269725911814401]
大きな言語モデル(LLM)は、幅広い言語ベースのタスクに対処する能力が大きく進歩しているため、人気ツールになりつつある。
しかし、LSMのアプリケーションはインジェクション攻撃に対して非常に脆弱であり、致命的な問題を引き起こす。
このプロジェクトでは,インジェクションのインジェクション攻撃に関連するセキュリティ脆弱性について検討する。
論文 参考訳(メタデータ) (2024-10-28T00:36:21Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Label-Efficient Object Detection via Region Proposal Network
Pre-Training [58.50615557874024]
地域提案ネットワーク(RPN)に効果的な事前学習を提供するための簡単な事前学習タスクを提案する。
RPN事前学習のないマルチステージ検出器と比較して,本手法はダウンストリームタスク性能を継続的に改善することができる。
論文 参考訳(メタデータ) (2022-11-16T16:28:18Z) - "That Is a Suspicious Reaction!": Interpreting Logits Variation to
Detect NLP Adversarial Attacks [0.2999888908665659]
敵攻撃は、現在の機械学習研究で直面する大きな課題である。
本研究は, 逆文例のモデルに依存しない検出法を提案する。
論文 参考訳(メタデータ) (2022-04-10T09:24:41Z) - Adversarially Robust One-class Novelty Detection [83.1570537254877]
既存のノベルティ検出器は敵の例に感受性があることが示される。
本稿では, 新規性検知器の潜伏空間を制御し, 敵に対する堅牢性を向上する防衛戦略を提案する。
論文 参考訳(メタデータ) (2021-08-25T10:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。