論文の概要: CommandSans: Securing AI Agents with Surgical Precision Prompt Sanitization
- arxiv url: http://arxiv.org/abs/2510.08829v1
- Date: Thu, 09 Oct 2025 21:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.801765
- Title: CommandSans: Securing AI Agents with Surgical Precision Prompt Sanitization
- Title(参考訳): CommandSans: 外科的精密なプロンプト衛生機能を備えたAIエージェントのセキュア化
- Authors: Debeshee Das, Luca Beurer-Kellner, Marc Fischer, Maximilian Baader,
- Abstract要約: 本稿では,データに実行可能命令を含まないという,コンピュータセキュリティの基本原理に着想を得た新しいアプローチを提案する。
サンプルレベルの分類の代わりに,ツール出力からAIシステムに指示された指示を外科的に除去するトークンレベルの衛生プロセスを提案する。
このアプローチは非ブロッキングであり、キャリブレーションを必要とせず、ツール出力のコンテキストに依存しない。
- 参考スコア(独自算出の注目度): 17.941502260254673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing adoption of LLM agents with access to numerous tools and sensitive data significantly widens the attack surface for indirect prompt injections. Due to the context-dependent nature of attacks, however, current defenses are often ill-calibrated as they cannot reliably differentiate malicious and benign instructions, leading to high false positive rates that prevent their real-world adoption. To address this, we present a novel approach inspired by the fundamental principle of computer security: data should not contain executable instructions. Instead of sample-level classification, we propose a token-level sanitization process, which surgically removes any instructions directed at AI systems from tool outputs, capturing malicious instructions as a byproduct. In contrast to existing safety classifiers, this approach is non-blocking, does not require calibration, and is agnostic to the context of tool outputs. Further, we can train such token-level predictors with readily available instruction-tuning data only, and don't have to rely on unrealistic prompt injection examples from challenges or of other synthetic origin. In our experiments, we find that this approach generalizes well across a wide range of attacks and benchmarks like AgentDojo, BIPIA, InjecAgent, ASB and SEP, achieving a 7-10x reduction of attack success rate (ASR) (34% to 3% on AgentDojo), without impairing agent utility in both benign and malicious settings.
- Abstract(参考訳): 多数のツールや機密データにアクセス可能なLLMエージェントの採用が増加し、間接的なプロンプトインジェクションの攻撃面が大幅に拡大した。
しかし、攻撃の文脈に依存した性質のため、現在の防御は、悪質で良質な指示を確実に区別できないため、しばしば不合理化されている。
そこで本研究では,データに実行可能命令を含まないという,コンピュータセキュリティの基本原理に着想を得た新しいアプローチを提案する。
サンプルレベルの分類の代わりに、ツール出力からAIシステムに指示された命令を外科的に除去し、悪意のある命令を副産物としてキャプチャするトークンレベルの衛生プロセスを提案する。
既存の安全分類器とは対照的に、このアプローチは非ブロッキングであり、校正を必要とせず、ツール出力の文脈に依存しない。
さらに,これらのトークンレベルの予測器を手軽に使用可能な命令チューニングデータのみでトレーニングすることが可能であり,課題や他の合成起源からの非現実的なプロンプトインジェクションの例に頼る必要もない。
実験の結果、AgentDojo、BIPIA、InjecAgent、ASB、SEPといった幅広い攻撃やベンチマークにおいて、AgentDojoでは7~10倍の攻撃成功率(ASR)を達成し(34%~3%)、悪質な設定でもエージェントユーティリティを損なうことなく、このアプローチが一般化していることが判明した。
関連論文リスト
- TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [92.26240528996443]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。
提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。
提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文 参考訳(メタデータ) (2025-07-18T06:23:31Z) - Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations [10.746349111023964]
ネットワーク内の中間トークン表現にIH信号を注入する新しい手法を提案する。
本手法は、これらの表現を、特権情報をエンコードする層固有のトレーニング可能な埋め込みで拡張する。
複数のモデルとトレーニング手法で評価した結果、提案手法は攻撃成功率の1.6倍から9.2倍の9.2倍に低下することがわかった。
論文 参考訳(メタデータ) (2025-05-25T00:01:39Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Enhancing Prompt Injection Attacks to LLMs via Poisoning Alignment [35.344406718760574]
プロンプトインジェクション攻撃は、大規模言語モデルをインジェクションされたプロンプトに従ってアタッカー・チョーセンタスクを実行することを目的としている。
既存の攻撃は主にこれらのインジェクションを推論時に作成することに集中し、LSM自体を静的なターゲットとして扱う。
そこで本研究では,LSMのアライメントプロセスに毒を盛り,将来のインジェクション攻撃の成功を増幅する,より基本的な攻撃ベクトルを提案する。
論文 参考訳(メタデータ) (2024-10-18T18:52:16Z) - Automatic and Universal Prompt Injection Attacks against Large Language
Models [38.694912482525446]
LLM(Large Language Models)は、命令を解釈し、従う能力によって、人間の言語を処理し、生成する際、優れた言語モデルである。
これらの攻撃はアプリケーションを操作して、ユーザの実際の要求から逸脱して、攻撃者のインジェクトされたコンテンツに対応する応答を生成する。
本稿では,プロンプトインジェクション攻撃の目的を理解するための統合フレームワークを導入し,高効率で普遍的なインジェクションデータを生成するための自動勾配ベース手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T23:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。