論文の概要: Protecting Context and Prompts: Deterministic Security for Non-Deterministic AI
- arxiv url: http://arxiv.org/abs/2602.10481v1
- Date: Wed, 11 Feb 2026 03:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.432506
- Title: Protecting Context and Prompts: Deterministic Security for Non-Deterministic AI
- Title(参考訳): コンテキストとプロンプトを保護する:非決定論的AIのための決定論的セキュリティ
- Authors: Mohan Rajagopalan, Vinay Rao,
- Abstract要約: 大規模言語モデル(LLM)アプリケーションは、インジェクションやコンテキスト操作の攻撃に対して脆弱である。
我々は,暗号的に検証可能な証明を提供する2つの新しいプリミティブ(認証プロンプト)と認証コンテキスト(認証コンテキスト)を導入する。
プロトコルレベルのビザンチン抵抗を与える4つの証明された定理を持つポリシー代数を定式化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) applications are vulnerable to prompt injection and context manipulation attacks that traditional security models cannot prevent. We introduce two novel primitives--authenticated prompts and authenticated context--that provide cryptographically verifiable provenance across LLM workflows. Authenticated prompts enable self-contained lineage verification, while authenticated context uses tamper-evident hash chains to ensure integrity of dynamic inputs. Building on these primitives, we formalize a policy algebra with four proven theorems providing protocol-level Byzantine resistance--even adversarial agents cannot violate organizational policies. Five complementary defenses--from lightweight resource controls to LLM-based semantic validation--deliver layered, preventative security with formal guarantees. Evaluation against representative attacks spanning 6 exhaustive categories achieves 100% detection with zero false positives and nominal overhead. We demonstrate the first approach combining cryptographically enforced prompt lineage, tamper-evident context, and provable policy reasoning--shifting LLM security from reactive detection to preventative guarantees.
- Abstract(参考訳): 大きな言語モデル(LLM)アプリケーションは、従来のセキュリティモデルでは防げないインジェクションやコンテキスト操作の攻撃に対して脆弱である。
LLMワークフローにまたがって暗号的に検証可能な証明を提供する2つの新しいプリミティブ(認証プロンプト)と認証コンテキスト(認証コンテキスト)を導入する。
認証されたプロンプトは、自己完結した系統の検証を可能にし、認証されたコンテキストは、動的入力の整合性を保証するために、タンパー明確なハッシュチェーンを使用する。
これらのプリミティブに基づいて、我々は、プロトコルレベルのビザンチン抵抗を与える4つの証明済みの定理を持つ政策代数を定式化する。敵エージェントでさえ、組織的な政策に違反することはできない。軽量な資源制御からLCMベースのセマンティック・バリデーションまで、5つの相補的な防御 - レイヤー化され、正式な保証付き予防的セキュリティを提供する。
6つの包括的カテゴリにまたがる代表的攻撃に対する評価は、偽陽性と名目上のオーバーヘッドをゼロで100%検出する。
我々は、暗号的に強制されたプロンプト系統、改ざんした文脈、証明可能なポリシー推論を組み合わせた最初のアプローチを実証する。
関連論文リスト
- Authenticated Workflows: A Systems Approach to Protecting Agentic AI [0.0]
企業エージェントAIのための,最初の完全信頼層である認証を導入します。
我々は、すべての境界交差において、意図(組織方針を満たす操作)と整合性(操作は暗号的に真である)を強制する。
これにより、決定論的セキュリティ操作が提供され、有効な暗号証明が実行されるか、拒否される。
論文 参考訳(メタデータ) (2026-02-11T03:04:50Z) - VeriGuard: Enhancing LLM Agent Safety via Verified Code Generation [40.594947933580464]
医療などのセンシティブなドメインに自律的なAIエージェントを配置することは、安全性、セキュリティ、プライバシに重大なリスクをもたらす。
LLMをベースとしたエージェントに対して、正式な安全保証を提供する新しいフレームワークであるVeriGuardを紹介する。
論文 参考訳(メタデータ) (2025-10-03T04:11:43Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach [9.483655213280738]
本稿では,大規模言語モデル(LLM)の安全性を評価するための新しいアプローチを提案する。
我々は、プロンプトリークをLLMデプロイメントの安全性にとって重要な脅威と定義する。
我々は,協調エージェントが目的のLLMを探索・活用し,そのプロンプトを抽出するマルチエージェントシステムを実装した。
論文 参考訳(メタデータ) (2025-02-18T08:17:32Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - CryptoFormalEval: Integrating LLMs and Formal Verification for Automated Cryptographic Protocol Vulnerability Detection [41.94295877935867]
我々は,新たな暗号プロトコルの脆弱性を自律的に識別する大規模言語モデルの能力を評価するためのベンチマークを導入する。
私たちは、新しい、欠陥のある通信プロトコルのデータセットを作成し、AIエージェントが発見した脆弱性を自動的に検証する方法を設計しました。
論文 参考訳(メタデータ) (2024-11-20T14:16:55Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。