Fugu-MT 論文翻訳(概要): ProxyPrompt: Securing System Prompts against Prompt Extraction Attacks

論文の概要: ProxyPrompt: Securing System Prompts against Prompt Extraction Attacks

arxiv url: http://arxiv.org/abs/2505.11459v1
Date: Fri, 16 May 2025 17:13:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-19 14:36:15.685988
Title: ProxyPrompt: Securing System Prompts against Prompt Extraction Attacks
Title（参考訳）: ProxyPrompt: プロンプト抽出攻撃に対するセキュアなシステムプロンプト
Authors: Zhixiong Zhuang, Maria-Irina Nicolae, Hui-Po Wang, Mario Fritz,
Abstract要約: ProxyPromptは,プロンプトをプロキシに置き換えることで,プロンプトの漏出を防止する新しい防御機構である。このプロキシは、抽出されたプロンプトを難読化しながら元のタスクのユーティリティを保持し、攻撃者がタスクを再現したり、機密情報にアクセスできないようにする。
参考スコア（独自算出の注目度）: 45.61283468341869
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The integration of large language models (LLMs) into a wide range of applications has highlighted the critical role of well-crafted system prompts, which require extensive testing and domain expertise. These prompts enhance task performance but may also encode sensitive information and filtering criteria, posing security risks if exposed. Recent research shows that system prompts are vulnerable to extraction attacks, while existing defenses are either easily bypassed or require constant updates to address new threats. In this work, we introduce ProxyPrompt, a novel defense mechanism that prevents prompt leakage by replacing the original prompt with a proxy. This proxy maintains the original task's utility while obfuscating the extracted prompt, ensuring attackers cannot reproduce the task or access sensitive information. Comprehensive evaluations on 264 LLM and system prompt pairs show that ProxyPrompt protects 94.70% of prompts from extraction attacks, outperforming the next-best defense, which only achieves 42.80%.
Abstract（参考訳）: 大規模言語モデル(LLM)の幅広いアプリケーションへの統合は、広範囲なテストとドメインの専門知識を必要とする、巧妙なシステムプロンプトの重要な役割を強調している。これらのプロンプトはタスクのパフォーマンスを高めるが、機密情報やフィルタリング基準を符号化し、露出した場合のセキュリティリスクを生じさせる可能性がある。最近の研究では、システムプロンプトは抽出攻撃に弱いことが示されており、既存の防御は容易にバイパスされるか、新たな脅威に対処するために定期的な更新を必要とする。本稿では,従来のプロンプトをプロキシに置き換えることで,プロンプトの漏出を防止する新しい防御機構であるProxyPromptを紹介する。このプロキシは、抽出されたプロンプトを難読化しながら元のタスクのユーティリティを保持し、攻撃者がタスクを再現したり、機密情報にアクセスできないようにする。 264 LLMとシステムプロンプトペアの総合的な評価は、プロクシープロンプトが94.70%のプロンプトを抽出攻撃から保護し、42.80%しか達成できない次の最善防衛よりも優れていたことを示している。

関連論文リスト

PromptArmor: Simple yet Effective Prompt Injection Defenses [92.64476186023197]
PromptArmorは簡便で効果的なインジェクション攻撃対策である。 PromptArmorは、市販のLCMに、潜在的に注入されたプロンプトを検出し削除するよう促す。以上の結果から, PromptArmorはインジェクションプロンプトを正確に識別・除去できることがわかった。
論文参考訳（メタデータ） (2025-07-21T03:41:44Z)
Defending Against Prompt Injection With a Few DefensiveTokens [53.7493897456957]
大規模言語モデル(LLM)システムは複雑なタスクを実行するために外部データと相互作用する。システムによってアクセスされたデータに命令を注入することにより、攻撃者は攻撃者が指示する任意のタスクで初期ユーザタスクをオーバーライドすることができる。システム開発者がフレキシブルな方法で必要な場合にのみセキュリティを確保するためには、例えば防御プロンプトのようなテストタイムディフェンスが提案されている。トレーニング時の代替に匹敵するプロンプトインジェクションを備えたテストタイムディフェンスであるDefensiveTokenを提案する。
論文参考訳（メタデータ） (2025-07-10T17:51:05Z)
System Prompt Extraction Attacks and Defenses in Large Language Models [2.6986500640871482]
大規模言語モデル(LLM)におけるシステムプロンプトは、モデルの振る舞いと応答生成を導く上で重要な役割を果たす。近年の研究では、LLMシステムプロンプトは、厳密に設計されたクエリによる攻撃の抽出に非常に敏感であることが示されている。脅威が増大しているにもかかわらず、システムによる攻撃と防御の促進に関する体系的な研究が欠如している。
論文参考訳（メタデータ） (2025-05-27T21:36:27Z)
AgentXploit: End-to-End Redteaming of Black-Box AI Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジィングフレームワークであるAgentXploitを提案する。我々は、AgentXploitをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach [9.483655213280738]
本稿では,大規模言語モデル(LLM)の安全性を評価するための新しいアプローチを提案する。我々は、プロンプトリークをLLMデプロイメントの安全性にとって重要な脅威と定義する。我々は,協調エージェントが目的のLLMを探索・活用し,そのプロンプトを抽出するマルチエージェントシステムを実装した。
論文参考訳（メタデータ） (2025-02-18T08:17:32Z)
The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection in LLM Agents [6.829628038851487]
大きな言語モデル(LLM)エージェントは、ツール統合を通じて複雑な現実世界のタスクを実行できる対話アシスタントとして、ますます多くデプロイされている。特に間接的なプロンプトインジェクション攻撃は、外部データソースに埋め込まれた悪意のある命令が、エージェントを操作してユーザの意図を逸脱させる、重大な脅威となる。我々は,エージェントのセキュリティが有害な行為を防止し,タスクアライメントを確保するためには,すべてのエージェントアクションをユーザ目的に役立てる必要がある,という新たな視点を提案する。
論文参考訳（メタデータ） (2024-12-21T16:17:48Z)
Safeguarding System Prompts for LLMs [7.869092877871087]
大規模言語モデル(LLM)は、システムがモデル出力を誘導するアプリケーションでますます利用されている。敵や通常のユーザクエリでさえ、これらの隠れたプロンプトを公開するために脆弱性を悪用することができる。本稿では,システムプロンプトの保護を目的とした堅牢な防御機構であるPromptKeeperを提案する。
論文参考訳（メタデータ） (2024-12-18T01:43:25Z)
LLM Safeguard is a Double-Edged Sword: Exploiting False Positives for Denial-of-Service Attacks [7.013820690538764]
本研究は,セーフガード手法のエンファルス陰性を利用した攻撃について検討する。悪意のある攻撃者は、セキュリティ保護の偽陽性を悪用する可能性もあり、ユーザーに影響を与えるDoS(DoS)が否定された。
論文参考訳（メタデータ） (2024-10-03T19:07:53Z)
Prompt Obfuscation for Large Language Models [7.685132072269178]
システムプロンプトの抽出を防止するために,プロンプト難読化を導入する。難解なプロンプト出力と元のプロンプトの出力を比較することで,我々のアプローチを評価する。
論文参考訳（メタデータ） (2024-09-17T09:43:29Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文参考訳（メタデータ） (2023-10-19T15:12:09Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。