論文の概要: Prompt Fencing: A Cryptographic Approach to Establishing Security Boundaries in Large Language Model Prompts
- arxiv url: http://arxiv.org/abs/2511.19727v1
- Date: Mon, 24 Nov 2025 21:44:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.174184
- Title: Prompt Fencing: A Cryptographic Approach to Establishing Security Boundaries in Large Language Model Prompts
- Title(参考訳): Prompt Fencing:大規模言語モデルでセキュリティ境界を確立するための暗号的アプローチ
- Authors: Steven Peh,
- Abstract要約: 大型言語モデル (LLM) は、インジェクション攻撃の迅速化に弱いままである。
暗号認証とデータアーキテクチャの原則を適用する新しいアーキテクチャアプローチであるPrompt Fencingを紹介します。
我々の手法は、信頼評価やコンテンツタイプを含む暗号署名されたメタデータでプロンプトセグメントをデコレートする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) remain vulnerable to prompt injection attacks, representing the most significant security threat in production deployments. We present Prompt Fencing, a novel architectural approach that applies cryptographic authentication and data architecture principles to establish explicit security boundaries within LLM prompts. Our approach decorates prompt segments with cryptographically signed metadata including trust ratings and content types, enabling LLMs to distinguish between trusted instructions and untrusted content. While current LLMs lack native fence awareness, we demonstrate that simulated awareness through prompt instructions achieved complete prevention of injection attacks in our experiments, reducing success rates from 86.7% (260/300 successful attacks) to 0% (0/300 successful attacks) across 300 test cases with two leading LLM providers. We implement a proof-of-concept fence generation and verification pipeline with a total overhead of 0.224 seconds (0.130s for fence generation, 0.094s for validation) across 100 samples. Our approach is platform-agnostic and can be incrementally deployed as a security layer above existing LLM infrastructure, with the expectation that future models will be trained with native fence awareness for optimal security.
- Abstract(参考訳): 大規模言語モデル(LLM)は、インジェクション攻撃の脅威に対して脆弱であり、本番環境における最も重大なセキュリティ脅威である。
本稿では,暗号認証とデータアーキテクチャの原則を適用した新しいアーキテクチャアプローチであるPrompt Fencingを紹介する。
提案手法は,信頼評価やコンテンツタイプを含む暗号署名されたメタデータを用いて,プロンプトセグメントをデコレーションすることで,LLMが信頼できないインストラクションと信頼できないコンストラクションを区別することを可能にする。
現在のLSMには、ネイティブなフェンス認識が欠けているが、我々の実験では、インジェクション攻撃の完全な予防を達成するためのインジェクション命令を通じてシミュレートされた認識が示され、成功率は86.7% (260/300) から0% (0/300) に減少し、2つの主要なLSMプロバイダを持つ300のテストケースで0/300となった。
本研究は,100サンプルに対して,総オーバーヘッド0.224秒(フェンス生成0.130秒,検証0.094秒)で概念フェンス生成検証パイプラインを実装した。
当社のアプローチはプラットフォームに依存しないため,既存のLLMインフラストラクチャ上のセキュリティレイヤとして段階的にデプロイすることが可能です。
関連論文リスト
- Friend or Foe: How LLMs' Safety Mind Gets Fooled by Intent Shift Attack [53.34204977366491]
大きな言語モデル(LLM)は、印象的な機能にもかかわらず、ジェイルブレイク攻撃に対して脆弱なままである。
本稿では,攻撃意図について LLM を混乱させる ISA (Intent Shift Attack) を提案する。
私たちのアプローチでは、元の要求に対して最小限の編集しか必要とせず、自然で、可読性があり、一見無害なプロンプトをもたらす。
論文 参考訳(メタデータ) (2025-11-01T13:44:42Z) - VulSolver: Vulnerability Detection via LLM-Driven Constraint Solving [23.259666449166456]
従来の脆弱性検出方法は、事前定義されたルールマッチングに大きく依存する。
大規模言語モデル(LLM)を用いた制約解決手法を提案する。
VULSOLVERをベンチマークで評価し、精度97.85%、スコア97.97%、リコール100%を達成した。
論文 参考訳(メタデータ) (2025-08-31T14:49:48Z) - Multi-Stage Prompt Inference Attacks on Enterprise LLM Systems [18.039444159491733]
エンタープライズ環境にデプロイされる大規模言語モデル(LLM)は、新たなセキュリティ課題に直面している。
敵同士が連携して、徐々に機密データを抽出するように仕向ける。
企業LLMコンテキストにおける多段階的プロンプト推論攻撃の包括的研究について述べる。
論文 参考訳(メタデータ) (2025-07-21T13:38:12Z) - Defeating Prompt Injections by Design [79.00910871948787]
CaMeLは、Large Language Modelsを中心とした保護システムレイヤを作成する堅牢なディフェンスである。
CaMeLは、(信頼された)クエリから制御とデータフローを明示的に抽出する。
セキュリティをさらに改善するため、CaMeLは、権限のないデータフロー上のプライベートデータの流出を防止する機能の概念を使用している。
論文 参考訳(メタデータ) (2025-03-24T15:54:10Z) - Prompt Flow Integrity to Prevent Privilege Escalation in LLM Agents [12.072737324367937]
大規模言語モデル(LLM)における特権エスカレーションを防止するために,PFI(Prompt Flow Integrity)を提案する。
PFIは、エージェントアイソレーション、セキュアな信頼できないデータ処理、特権エスカレーションガードレールの3つの緩和技術を備えている。
評価の結果, PFI は LLM エージェントの有効性を保ちながら, 特権エスカレーション攻撃を効果的に軽減できることが示唆された。
論文 参考訳(メタデータ) (2025-03-17T05:27:57Z) - Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach [9.483655213280738]
本稿では,大規模言語モデル(LLM)の安全性を評価するための新しいアプローチを提案する。
我々は、プロンプトリークをLLMデプロイメントの安全性にとって重要な脅威と定義する。
我々は,協調エージェントが目的のLLMを探索・活用し,そのプロンプトを抽出するマルチエージェントシステムを実装した。
論文 参考訳(メタデータ) (2025-02-18T08:17:32Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。