論文の概要: DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2504.11358v1
- Date: Tue, 15 Apr 2025 16:26:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:49.966445
- Title: DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks
- Title(参考訳): DataSentinel: プロンプトインジェクション攻撃のゲーム理論による検出
- Authors: Yupei Liu, Yuqi Jia, Jinyuan Jia, Dawn Song, Neil Zhenqiang Gong,
- Abstract要約: LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
- 参考スコア(独自算出の注目度): 101.52204404377039
- License:
- Abstract: LLM-integrated applications and agents are vulnerable to prompt injection attacks, where an attacker injects prompts into their inputs to induce attacker-desired outputs. A detection method aims to determine whether a given input is contaminated by an injected prompt. However, existing detection methods have limited effectiveness against state-of-the-art attacks, let alone adaptive ones. In this work, we propose DataSentinel, a game-theoretic method to detect prompt injection attacks. Specifically, DataSentinel fine-tunes an LLM to detect inputs contaminated with injected prompts that are strategically adapted to evade detection. We formulate this as a minimax optimization problem, with the objective of fine-tuning the LLM to detect strong adaptive attacks. Furthermore, we propose a gradient-based method to solve the minimax optimization problem by alternating between the inner max and outer min problems. Our evaluation results on multiple benchmark datasets and LLMs show that DataSentinel effectively detects both existing and adaptive prompt injection attacks.
- Abstract(参考訳): LLM統合されたアプリケーションとエージェントは、攻撃者が入力にプロンプトを注入して攻撃者が望んだ出力を誘導するインジェクション攻撃に対して脆弱である。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
しかし、既存の検出手法は、適応攻撃だけでなく、最先端攻撃に対する有効性も制限されている。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
具体的には、DataSentinelはLSMを微調整し、注入されたプロンプトで汚染された入力を検知する。
我々はこれを最小限の最適化問題として定式化し、LLMを微調整して強力な適応攻撃を検出することを目的とする。
さらに,内最大値と外最小値との交互化による最小値最適化問題の解法を提案する。
複数のベンチマークデータセットとLCMを用いて評価した結果,DataSentinelは既存のインジェクション攻撃と適応的なインジェクション攻撃の両方を効果的に検出できることがわかった。
関連論文リスト
- SHIELD: APT Detection and Intelligent Explanation Using LLM [22.944352324963546]
高度な永続的脅威(APT)は、長期にわたって検出されない高度なサイバー攻撃である。
既存のプロファイランスに基づく攻撃検出手法は、しばしば解釈可能性に欠け、高い偽陽性率に悩まされる。
統計的異常検出とグラフに基づく解析と,大規模言語モデルの文脈解析機能を組み合わせた新しい手法である ShiELD を導入する。
論文 参考訳(メタデータ) (2025-02-04T14:20:51Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Palisade -- Prompt Injection Detection Framework [0.9620910657090188]
大規模言語モデルは、悪意のあるインジェクション攻撃に対して脆弱である。
本稿では,新しいNLPを用いたインジェクション検出手法を提案する。
階層化された入力スクリーニングプロセスを通じて精度と最適化を強調する。
論文 参考訳(メタデータ) (2024-10-28T15:47:03Z) - Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection [6.269725911814401]
大きな言語モデル(LLM)は、幅広い言語ベースのタスクに対処する能力が大きく進歩しているため、人気ツールになりつつある。
しかし、LSMのアプリケーションはインジェクション攻撃に対して非常に脆弱であり、致命的な問題を引き起こす。
このプロジェクトでは,インジェクションのインジェクション攻撃に関連するセキュリティ脆弱性について検討する。
論文 参考訳(メタデータ) (2024-10-28T00:36:21Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Optimization-based Prompt Injection Attack to LLM-as-a-Judge [78.20257854455562]
LLM-as-a-Judgeは、大きな言語モデル(LLM)を使用して、ある質問に対する候補セットから最適な応答を選択する。
LLM-as-a-Judgeに対する最適化に基づくプロンプトインジェクション攻撃であるJiceDeceiverを提案する。
評価の結果,JiceDeceiveは既存のプロンプトインジェクション攻撃よりも効果的であることがわかった。
論文 参考訳(メタデータ) (2024-03-26T13:58:00Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - A Large-scale Multiple-objective Method for Black-box Attack against
Object Detection [70.00150794625053]
我々は、真正の確率を最小化し、偽正の確率を最大化し、より多くの偽正の物体が新しい真正の有界箱を作らないようにする。
我々は、GARSDCと呼ばれるランダム・サブセット選択とディバイド・アンド・コンカーによる標準的な遺伝的アルゴリズムを拡張し、効率を大幅に改善する。
最先端攻撃法と比較して、GARSDCはmAPでは平均12.0、広範囲な実験ではクエリでは約1000倍減少する。
論文 参考訳(メタデータ) (2022-09-16T08:36:42Z) - Using Anomaly Detection to Detect Poisoning Attacks in Federated Learning Applications [3.1698141437031393]
毒殺などの敵対的な攻撃は多くの機械学習研究者の注目を集めている。
伝統的に、毒殺攻撃は訓練されたモデルを操作するために敵の訓練データを注入しようとする。
フェデレートラーニング(FL)において、データ中毒攻撃は、検出器による局所的な訓練データにアクセスできないため、より単純な方法では検出できない毒攻撃をモデル化するために一般化することができる。
本研究では,FLにおける有害な攻撃を検出するための新しい枠組みを提案する。このフレームワークは,公開データセットと監査者モデルに基づく参照モデルを用いて,悪意のある更新を検知する。
論文 参考訳(メタデータ) (2022-07-18T10:10:45Z) - PiDAn: A Coherence Optimization Approach for Backdoor Attack Detection
and Mitigation in Deep Neural Networks [22.900501880865658]
バックドア攻撃はディープニューラルネットワーク(DNN)に新たな脅威をもたらす
汚染されたデータを浄化するコヒーレンス最適化に基づくアルゴリズムであるPiDAnを提案する。
当社のPiDAnアルゴリズムは90%以上の感染クラスを検出でき、95%の有毒サンプルを識別できる。
論文 参考訳(メタデータ) (2022-03-17T12:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。