論文の概要: PragLocker: Protecting Agent Intellectual Property in Untrusted Deployments via Non-Portable Prompts
- arxiv url: http://arxiv.org/abs/2605.05974v1
- Date: Thu, 07 May 2026 10:19:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.694226
- Title: PragLocker: Protecting Agent Intellectual Property in Untrusted Deployments via Non-Portable Prompts
- Title(参考訳): PragLocker: 非移植プロンプトによる信頼できないデプロイメントにおけるエージェントの知的プロパティ保護
- Authors: Qinfeng Li, Yuntai Bao, Jianghui Hu, Wenqi Zhang, Jintao Chen, Huifeng Zhu, Yier Jin, Xuhong Zhang,
- Abstract要約: LLMエージェントは、基礎的なLCMに基づいたタスク固有の機能を実装するプロンプトに依存する。
信頼できない展開では、敵はこれらのプロンプトを他のプロプライエタリなLLMとコピーして再利用することができ、経済的損失を引き起こす。
これらの要件を満たすプロンプトプロテクションスキームであるPragLockerを紹介します。
- 参考スコア(独自算出の注目度): 18.735200590753525
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: LLM agents rely on prompts to implement task-specific capabilities based on foundation LLMs, making agent prompts valuable intellectual property. However, in untrusted deployments, adversaries can copy and reuse these prompts with other proprietary LLMs, causing economic losses. To protect these prompts, we identify four key challenges: proactivity, runtime protection, usability, and non-portability that existing approaches fail to address. We present PragLocker, a prompt protection scheme that satisfies these requirements. PragLocker constructs function-preserving obfuscated prompts by anchoring semantics with code symbols and then using target-model feedback to inject noise, yielding prompts that only work on the target LLM. Experiments across multiple agent systems, datasets, and foundation LLMs show that PragLocker substantially reduces cross-LLM portability, maintains target performance, and remains robust against adaptive attackers.
- Abstract(参考訳): LLMエージェントは、基本的なLCMに基づいてタスク固有の機能を実装するプロンプトに依存しており、エージェントは貴重な知的財産をプロンプトする。
しかし、信頼できない展開では、敵はこれらのプロンプトを他のプロプライエタリなLLMとコピーして再利用することができ、経済的損失を引き起こす。
これらのプロンプトを保護するために、私たちは、アクティブ、ランタイム保護、ユーザビリティ、既存のアプローチで対処できない非可搬性の4つの重要な課題を特定します。
これらの要件を満たすプロンプトプロテクションスキームであるPragLockerを紹介します。
PragLockerは、コードシンボルでセマンティクスをアンロックし、ターゲットモデルフィードバックを使用してノイズを注入することで、関数保存の難読化プロンプトを構築し、ターゲットLLMでのみ動作するプロンプトを生成する。
複数のエージェントシステム、データセット、基盤LPMにわたる実験によると、PragLockerはLLM間のポータビリティを大幅に削減し、ターゲットのパフォーマンスを維持し、アダプティブアタックに対して堅牢である。
関連論文リスト
- A Framework for Formalizing LLM Agent Security [46.86073273904095]
LLMエージェントのセキュリティは本質的にコンテキスト的です。
LLMエージェントに対する既存のセキュリティ攻撃の定義は、しばしばこの文脈の性質を捉えない。
本稿では,文脈的セキュリティの観点から,既存の攻撃と防御を体系化するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-19T21:01:49Z) - PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization [0.0]
本稿では,シールド付加によるシステムプロンプト硬化のための新しいフレームワークを提案する。
我々は、LSM-as-optimizerを利用してShiELDの空間を探索し、敵攻撃の組から導かれる漏洩量を最小限に抑える。
最適化されたShielDは、包括的な抽出攻撃に対する急激なリークを著しく低減することを示した。
論文 参考訳(メタデータ) (2025-11-20T10:25:45Z) - CoTGuard: Using Chain-of-Thought Triggering for Copyright Protection in Multi-Agent LLM Systems [55.57181090183713]
我々は、Chain-of-Thought推論内でトリガーベースの検出を活用する著作権保護のための新しいフレームワークであるCoTGuardを紹介する。
具体的には、特定のCoTセグメントをアクティベートし、特定のトリガクエリをエージェントプロンプトに埋め込むことで、未許可コンテンツ再生の中間的推論ステップを監視する。
このアプローチは、協調エージェントシナリオにおける著作権侵害の微細かつ解釈可能な検出を可能にする。
論文 参考訳(メタデータ) (2025-05-26T01:42:37Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Prompt Flow Integrity to Prevent Privilege Escalation in LLM Agents [12.072737324367937]
大規模言語モデル(LLM)における特権エスカレーションを防止するために,PFI(Prompt Flow Integrity)を提案する。
PFIは、エージェントアイソレーション、セキュアな信頼できないデータ処理、特権エスカレーションガードレールの3つの緩和技術を備えている。
評価の結果, PFI は LLM エージェントの有効性を保ちながら, 特権エスカレーション攻撃を効果的に軽減できることが示唆された。
論文 参考訳(メタデータ) (2025-03-17T05:27:57Z) - Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach [9.483655213280738]
本稿では,大規模言語モデル(LLM)の安全性を評価するための新しいアプローチを提案する。
我々は、プロンプトリークをLLMデプロイメントの安全性にとって重要な脅威と定義する。
我々は,協調エージェントが目的のLLMを探索・活用し,そのプロンプトを抽出するマルチエージェントシステムを実装した。
論文 参考訳(メタデータ) (2025-02-18T08:17:32Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは、それぞれ98%と83%のガードレール精度を持つ2つのベンチマークにおいて、異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。