論文の概要: Defending Against Prompt Injection with DataFilter
- arxiv url: http://arxiv.org/abs/2510.19207v1
- Date: Wed, 22 Oct 2025 03:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.027817
- Title: Defending Against Prompt Injection with DataFilter
- Title(参考訳): DataFilterによるプロンプト注入に対する防御
- Authors: Yizhu Wang, Sizhe Chen, Raghad Alkhudair, Basel Alomair, David Wagner,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、タスクの自動化や信頼できない外部データとのインタラクションのために、ますます多くデプロイされている。
LLMがアクセスするデータに悪意のある命令を注入することで、攻撃者は元のユーザタスクを任意にオーバーライドし、意図しない潜在的有害なアクションにエージェントをリダイレクトすることができる。
テスト時間モデルに依存しないディフェンスであるDataFilterを提案し、バックエンドのLCMに到達する前にデータから悪意ある命令を除去する。
- 参考スコア(独自算出の注目度): 7.1507566575747346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When large language model (LLM) agents are increasingly deployed to automate tasks and interact with untrusted external data, prompt injection emerges as a significant security threat. By injecting malicious instructions into the data that LLMs access, an attacker can arbitrarily override the original user task and redirect the agent toward unintended, potentially harmful actions. Existing defenses either require access to model weights (fine-tuning), incur substantial utility loss (detection-based), or demand non-trivial system redesign (system-level). Motivated by this, we propose DataFilter, a test-time model-agnostic defense that removes malicious instructions from the data before it reaches the backend LLM. DataFilter is trained with supervised fine-tuning on simulated injections and leverages both the user's instruction and the data to selectively strip adversarial content while preserving benign information. Across multiple benchmarks, DataFilter consistently reduces the prompt injection attack success rates to near zero while maintaining the LLMs' utility. DataFilter delivers strong security, high utility, and plug-and-play deployment, making it a strong practical defense to secure black-box commercial LLMs against prompt injection. Our DataFilter model is released at https://huggingface.co/JoyYizhu/DataFilter for immediate use, with the code to reproduce our results at https://github.com/yizhu-joy/DataFilter.
- Abstract(参考訳): 大きな言語モデル(LLM)エージェントがタスクの自動化や信頼できない外部データとのインタラクションのためにデプロイされるようになると、迅速なインジェクションが重大なセキュリティ上の脅威として現れます。
LLMがアクセスするデータに悪意のある命令を注入することで、攻撃者は元のユーザタスクを任意にオーバーライドし、意図しない潜在的有害なアクションにエージェントをリダイレクトすることができる。
既存の防御は、モデルウェイト(微調整)へのアクセス、実質的なユーティリティ損失(検出ベース)、あるいは非自明なシステム再設計(システムレベル)を必要とする。
そこで我々はDataFilterを提案する。DataFilterはテスト時間モデルに依存しないディフェンスで、バックエンドのLCMに到達する前にデータから悪意ある命令を除去する。
DataFilterは、シミュレーションインジェクションの教師付き微調整で訓練され、ユーザの命令とデータの両方を利用して、良質な情報を保持しながら、敵対的コンテンツを選択的に削除する。
複数のベンチマークで、DataFilterはLSMのユーティリティを維持しながら、インジェクション攻撃の成功率をほぼゼロに抑える。
DataFilterは強力なセキュリティ、高ユーティリティ、プラグイン・アンド・プレイのデプロイメントを提供する。
私たちのDataFilterモデルは、すぐに使えるようにhttps://huggingface.co/JoyYizhu/DataFilterでリリースされています。
関連論文リスト
- Better Privilege Separation for Agents by Restricting Data Types [6.028799607869068]
大規模言語モデル(LLM)のタイプ指向特権分離を提案する。
我々は、信頼できないコンテンツをキュレートされたデータ型に変換することによって、LDMがサードパーティのデータと対話する能力を制限する。
生文字列とは異なり、各データ型はスコープとコンテントに制限されており、プロンプトインジェクションの可能性を排除している。
論文 参考訳(メタデータ) (2025-09-30T08:20:50Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [87.66245688589977]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:26:21Z) - Defeating Prompt Injections by Design [79.00910871948787]
CaMeLは、Large Language Modelsを中心とした保護システムレイヤを作成する堅牢なディフェンスである。
CaMeLは、(信頼された)クエリから制御とデータフローを明示的に抽出する。
セキュリティをさらに改善するため、CaMeLは、権限のないデータフロー上のプライベートデータの流出を防止する機能の概念を使用している。
論文 参考訳(メタデータ) (2025-03-24T15:54:10Z) - Enhancing Prompt Injection Attacks to LLMs via Poisoning Alignment [35.344406718760574]
プロンプトインジェクション攻撃は、大規模言語モデルをインジェクションされたプロンプトに従ってアタッカー・チョーセンタスクを実行することを目的としている。
既存の攻撃は主にこれらのインジェクションを推論時に作成することに集中し、LSM自体を静的なターゲットとして扱う。
そこで本研究では,LSMのアライメントプロセスに毒を盛り,将来のインジェクション攻撃の成功を増幅する,より基本的な攻撃ベクトルを提案する。
論文 参考訳(メタデータ) (2024-10-18T18:52:16Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
敵のプロンプトは外部のデータソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を10%に下げる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。