論文の概要: CommandSans: Securing AI Agents with Surgical Precision Prompt Sanitization
- arxiv url: http://arxiv.org/abs/2510.08829v1
- Date: Thu, 09 Oct 2025 21:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.801765
- Title: CommandSans: Securing AI Agents with Surgical Precision Prompt Sanitization
- Title(参考訳): CommandSans: 外科的精密なプロンプト衛生機能を備えたAIエージェントのセキュア化
- Authors: Debeshee Das, Luca Beurer-Kellner, Marc Fischer, Maximilian Baader,
- Abstract要約: 本稿では,データに実行可能命令を含まないという,コンピュータセキュリティの基本原理に着想を得た新しいアプローチを提案する。
サンプルレベルの分類の代わりに,ツール出力からAIシステムに指示された指示を外科的に除去するトークンレベルの衛生プロセスを提案する。
このアプローチは非ブロッキングであり、キャリブレーションを必要とせず、ツール出力のコンテキストに依存しない。
- 参考スコア(独自算出の注目度): 17.941502260254673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing adoption of LLM agents with access to numerous tools and sensitive data significantly widens the attack surface for indirect prompt injections. Due to the context-dependent nature of attacks, however, current defenses are often ill-calibrated as they cannot reliably differentiate malicious and benign instructions, leading to high false positive rates that prevent their real-world adoption. To address this, we present a novel approach inspired by the fundamental principle of computer security: data should not contain executable instructions. Instead of sample-level classification, we propose a token-level sanitization process, which surgically removes any instructions directed at AI systems from tool outputs, capturing malicious instructions as a byproduct. In contrast to existing safety classifiers, this approach is non-blocking, does not require calibration, and is agnostic to the context of tool outputs. Further, we can train such token-level predictors with readily available instruction-tuning data only, and don't have to rely on unrealistic prompt injection examples from challenges or of other synthetic origin. In our experiments, we find that this approach generalizes well across a wide range of attacks and benchmarks like AgentDojo, BIPIA, InjecAgent, ASB and SEP, achieving a 7-10x reduction of attack success rate (ASR) (34% to 3% on AgentDojo), without impairing agent utility in both benign and malicious settings.
- Abstract(参考訳): 多数のツールや機密データにアクセス可能なLLMエージェントの採用が増加し、間接的なプロンプトインジェクションの攻撃面が大幅に拡大した。
しかし、攻撃の文脈に依存した性質のため、現在の防御は、悪質で良質な指示を確実に区別できないため、しばしば不合理化されている。
そこで本研究では,データに実行可能命令を含まないという,コンピュータセキュリティの基本原理に着想を得た新しいアプローチを提案する。
サンプルレベルの分類の代わりに、ツール出力からAIシステムに指示された命令を外科的に除去し、悪意のある命令を副産物としてキャプチャするトークンレベルの衛生プロセスを提案する。
既存の安全分類器とは対照的に、このアプローチは非ブロッキングであり、校正を必要とせず、ツール出力の文脈に依存しない。
さらに,これらのトークンレベルの予測器を手軽に使用可能な命令チューニングデータのみでトレーニングすることが可能であり,課題や他の合成起源からの非現実的なプロンプトインジェクションの例に頼る必要もない。
実験の結果、AgentDojo、BIPIA、InjecAgent、ASB、SEPといった幅広い攻撃やベンチマークにおいて、AgentDojoでは7~10倍の攻撃成功率(ASR)を達成し(34%~3%)、悪質な設定でもエージェントユーティリティを損なうことなく、このアプローチが一般化していることが判明した。
関連論文リスト
- SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Defense Against Indirect Prompt Injection via Tool Result Parsing [5.69701430275527]
LLMエージェントは間接的なプロンプトインジェクションからエスカレートする脅威に直面している。
この脆弱性は、エージェントが物理的な環境をより直接的に制御するようになると、重大なリスクをもたらす。
そこで本稿では,LLMに対してツール解析による正確なデータを提供するとともに,注入された悪意のあるコードを効果的にフィルタリングする手法を提案する。
論文 参考訳(メタデータ) (2026-01-08T10:21:56Z) - Soft Instruction De-escalation Defense [36.36851291734834]
大規模言語モデル(LLM)は、ますます外部環境と相互作用するエージェントシステムにデプロイされている。
これにより、信頼できないデータを扱う際に、インジェクションをインジェクションすることが可能になる。
ツール拡張LDMエージェント用に設計された簡易かつ効果的な反復的プロンプト衛生ループSICを提案する。
論文 参考訳(メタデータ) (2025-10-24T00:04:07Z) - TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [92.26240528996443]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。
提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。
提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文 参考訳(メタデータ) (2025-07-18T06:23:31Z) - Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations [10.746349111023964]
ネットワーク内の中間トークン表現にIH信号を注入する新しい手法を提案する。
本手法は、これらの表現を、特権情報をエンコードする層固有のトレーニング可能な埋め込みで拡張する。
複数のモデルとトレーニング手法で評価した結果、提案手法は攻撃成功率の1.6倍から9.2倍の9.2倍に低下することがわかった。
論文 参考訳(メタデータ) (2025-05-25T00:01:39Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。
LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。
近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文 参考訳(メタデータ) (2024-11-01T09:14:21Z) - Enhancing Prompt Injection Attacks to LLMs via Poisoning Alignment [35.344406718760574]
プロンプトインジェクション攻撃は、大規模言語モデルをインジェクションされたプロンプトに従ってアタッカー・チョーセンタスクを実行することを目的としている。
既存の攻撃は主にこれらのインジェクションを推論時に作成することに集中し、LSM自体を静的なターゲットとして扱う。
そこで本研究では,LSMのアライメントプロセスに毒を盛り,将来のインジェクション攻撃の成功を増幅する,より基本的な攻撃ベクトルを提案する。
論文 参考訳(メタデータ) (2024-10-18T18:52:16Z) - Automatic and Universal Prompt Injection Attacks against Large Language
Models [38.694912482525446]
LLM(Large Language Models)は、命令を解釈し、従う能力によって、人間の言語を処理し、生成する際、優れた言語モデルである。
これらの攻撃はアプリケーションを操作して、ユーザの実際の要求から逸脱して、攻撃者のインジェクトされたコンテンツに対応する応答を生成する。
本稿では,プロンプトインジェクション攻撃の目的を理解するための統合フレームワークを導入し,高効率で普遍的なインジェクションデータを生成するための自動勾配ベース手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T23:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。