論文の概要: Prompt Control-Flow Integrity: A Priority-Aware Runtime Defense Against Prompt Injection in LLM Systems
- arxiv url: http://arxiv.org/abs/2603.18433v1
- Date: Thu, 19 Mar 2026 02:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.930115
- Title: Prompt Control-Flow Integrity: A Priority-Aware Runtime Defense Against Prompt Injection in LLM Systems
- Title(参考訳): プロンプト制御-フロー積分性:LLMシステムにおけるプロンプト注入に対する優先性を考慮した実行時防御
- Authors: Md Takrim Ul Alam, Akif Islam, Mohd Ruhul Ameen, Abu Saleh Musa Miah, Jungpil Shin,
- Abstract要約: 既存の防御はプロンプトをフラット文字列として扱い、アドホックフィルタリングや静的ジェイルブレイク検出に依存している。
本稿では,PCFI(Prompt Control-Flow Integrity)を提案し,各要求をシステム,開発者,ユーザ,検索文書セグメントの構造化構成としてモデル化する。
PCFIは全ての攻撃ラベル付きリクエストをインターセプトし、0%の偽陽性率を維持し、0.04msの中央処理オーバーヘッドを導入する。
- 参考スコア(独自算出の注目度): 1.5223740593989443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) deployed behind APIs and retrieval-augmented generation (RAG) stacks are vulnerable to prompt injection attacks that may override system policies, subvert intended behavior, and induce unsafe outputs. Existing defenses often treat prompts as flat strings and rely on ad hoc filtering or static jailbreak detection. This paper proposes Prompt Control-Flow Integrity (PCFI), a priority-aware runtime defense that models each request as a structured composition of system, developer, user, and retrieved-document segments. PCFI applies a three-stage middleware pipeline, lexical heuristics, role-switch detection, and hierarchical policy enforcement, before forwarding requests to the backend LLM. We implement PCFI as a FastAPI-based gateway for deployed LLM APIs and evaluate it on a custom benchmark of synthetic and semi-realistic prompt-injection workloads. On the evaluated benchmark suite, PCFI intercepts all attack-labeled requests, maintains a 0% False Positive Rate, and introduces a median processing overhead of only 0.04 ms. These results suggest that provenance- and priority-aware prompt enforcement is a practical and lightweight defense for deployed LLM systems.
- Abstract(参考訳): APIと検索拡張生成(RAG)スタックの背後に配置された大規模言語モデル(LLM)は、システムポリシーをオーバーライドし、意図した振る舞いを抑え、安全でない出力を誘導する可能性のあるインジェクション攻撃に対して脆弱である。
既存の防御は、しばしばプロンプトをフラット文字列として扱い、アドホックフィルタリングや静的ジェイルブレイク検出に依存している。
本稿では,PCFI(Prompt Control-Flow Integrity)を提案し,各要求をシステム,開発者,ユーザ,検索文書セグメントの構造化構成としてモデル化する。
PCFIは3段階のミドルウェアパイプライン、語彙ヒューリスティック、ロールスイッチ検出、階層的なポリシー適用を適用し、バックエンドのLCMにリクエストを転送する。
LLM APIをデプロイするためのFastAPIベースのゲートウェイとしてPCFIを実装し、合成および半現実的なプロンプトインジェクションワークロードのカスタムベンチマークで評価する。
評価されたベンチマークスイートでは、PCFIは全ての攻撃ラベル付き要求をインターセプトし、0%の偽陽性率を維持し、0.04msの中央値処理オーバーヘッドを導入している。
関連論文リスト
- OpenClaw PRISM: A Zero-Fork, Defense-in-Depth Runtime Security Layer for Tool-Augmented LLM Agents [6.185334606321749]
OpenClawベースのエージェントゲートウェイ用のゼロフォークランタイムセキュリティ層であるOpenClaw PRISMを提案する。
PRISMはプロセス内プラグインとオプションのサイドカーサービスを組み合わせることで、10つのライフサイクルフックに強制力を分散する。
エージェントランタイム設定におけるセキュリティの有効性,偽陽性,レイヤコントリビューション,ランタイムオーバーヘッド,運用復旧性を評価するための評価手法とベンチマークパイプラインについて概説する。
論文 参考訳(メタデータ) (2026-03-12T12:20:12Z) - Silent Egress: When Implicit Prompt Injection Makes LLM Agents Leak Without a Trace [0.0]
自動生成されたURLプレビューに埋め込まれた敵対的命令は、サイレント・エクスプレスと呼ばれるシステムレベルのリスクをもたらす可能性があることを示す。
完全にローカルで再現可能なテストベッドを使用して、悪意のあるWebページがエージェントを誘導し、機密性の高いランタイムコンテキストを透過するアウトバウンドリクエストを発行できることを実証する。
qwen2.5:7bをベースとした480の実験では、攻撃は高い確率 (P (exress) =0.89) で成功し、95%の攻撃は出力ベースの安全チェックでは検出されない。
論文 参考訳(メタデータ) (2026-02-25T22:26:23Z) - PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization [0.0]
本稿では,シールド付加によるシステムプロンプト硬化のための新しいフレームワークを提案する。
我々は、LSM-as-optimizerを利用してShiELDの空間を探索し、敵攻撃の組から導かれる漏洩量を最小限に抑える。
最適化されたShielDは、包括的な抽出攻撃に対する急激なリークを著しく低減することを示した。
論文 参考訳(メタデータ) (2025-11-20T10:25:45Z) - Countermind: A Multi-Layered Security Architecture for Large Language Models [0.0]
本稿では,多層型セキュリティアーキテクチャであるCountermindを提案する。
アーキテクチャは、すべての入力を構造的に検証し変換するように設計された強化された周辺装置と、出力が発生する前にモデルのセマンティック処理経路を制約する内部ガバナンス機構を提案する。
論文 参考訳(メタデータ) (2025-10-13T18:41:18Z) - Better Privilege Separation for Agents by Restricting Data Types [6.028799607869068]
大規模言語モデル(LLM)のタイプ指向特権分離を提案する。
我々は、信頼できないコンテンツをキュレートされたデータ型に変換することによって、LDMがサードパーティのデータと対話する能力を制限する。
生文字列とは異なり、各データ型はスコープとコンテントに制限されており、プロンプトインジェクションの可能性を排除している。
論文 参考訳(メタデータ) (2025-09-30T08:20:50Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
敵のプロンプトは外部のデータソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を10%に下げる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。