論文の概要: PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization
- arxiv url: http://arxiv.org/abs/2511.16209v1
- Date: Thu, 20 Nov 2025 10:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.570359
- Title: PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization
- Title(参考訳): PSM: LLM-Guided Black-Box Optimizationによるプロンプト感度最小化
- Authors: Huseein Jawad, Nicolas Brunel,
- Abstract要約: 本稿では,シールド付加によるシステムプロンプト硬化のための新しいフレームワークを提案する。
我々は、LSM-as-optimizerを利用してShiELDの空間を探索し、敵攻撃の組から導かれる漏洩量を最小限に抑える。
最適化されたShielDは、包括的な抽出攻撃に対する急激なリークを著しく低減することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: System prompts are critical for guiding the behavior of Large Language Models (LLMs), yet they often contain proprietary logic or sensitive information, making them a prime target for extraction attacks. Adversarial queries can successfully elicit these hidden instructions, posing significant security and privacy risks. Existing defense mechanisms frequently rely on heuristics, incur substantial computational overhead, or are inapplicable to models accessed via black-box APIs. This paper introduces a novel framework for hardening system prompts through shield appending, a lightweight approach that adds a protective textual layer to the original prompt. Our core contribution is the formalization of prompt hardening as a utility-constrained optimization problem. We leverage an LLM-as-optimizer to search the space of possible SHIELDs, seeking to minimize a leakage metric derived from a suite of adversarial attacks, while simultaneously preserving task utility above a specified threshold, measured by semantic fidelity to baseline outputs. This black-box, optimization-driven methodology is lightweight and practical, requiring only API access to the target and optimizer LLMs. We demonstrate empirically that our optimized SHIELDs significantly reduce prompt leakage against a comprehensive set of extraction attacks, outperforming established baseline defenses without compromising the model's intended functionality. Our work presents a paradigm for developing robust, utility-aware defenses in the escalating landscape of LLM security. The code is made public on the following link: https://github.com/psm-defense/psm
- Abstract(参考訳): システムプロンプトは、LLM(Large Language Models)の振る舞いを導く上で重要であるが、プロプライエタリなロジックやセンシティブな情報を含んでいることが多く、攻撃を抽出するための主要なターゲットとなっている。
敵対的なクエリは、これらの隠された命令をうまく引き出すことができ、重大なセキュリティとプライバシのリスクを生じさせる。
既存の防御機構は、しばしばヒューリスティックに依存し、かなりの計算オーバーヘッドを発生させるか、ブラックボックスAPIを通じてアクセスされるモデルには適用できない。
本稿では,従来のプロンプトに保護的なテクスチャ層を追加する軽量なアプローチであるシールド付加により,システムプロンプトを硬化させる新しいフレームワークを提案する。
当社のコアコントリビューションは,実用性に制約のある最適化問題としての即時硬化の形式化です。
LLM-as-optimizerを用いてShiELDの空間を探索し、敵攻撃の組から導かれるリークメトリックを最小化し、同時に特定のしきい値の上にタスクユーティリティを保存し、ベースライン出力に対する意味的忠実度によって測定する。
このブラックボックスで最適化駆動の方法論は軽量で実用的であり、ターゲットとオプティマイザのLLMへのAPIアクセスしか必要としない。
最適化されたShielDは、モデルが意図した機能を損なうことなく、既存のベースラインディフェンスよりも優れており、包括的な抽出攻撃に対する迅速なリークを著しく低減することを示した。
本研究は,LLMセキュリティの高度化にともなう状況において,堅牢で実用性に配慮した防御を開発するためのパラダイムを提案する。
コードは以下のリンクで公開されている。 https://github.com/psm-defense/psm
関連論文リスト
- VortexPIA: Indirect Prompt Injection Attack against LLMs for Efficient Extraction of User Privacy [22.037235521470468]
大規模言語モデル(LLM)は、会話型AI(CAI)に広くデプロイされている。
近年の研究では、LLMベースのCAIを操作して、人間から個人情報を抽出し、重大なセキュリティ上の脅威を生じさせることが示されている。
ブラックボックス設定下でのプライバシー抽出を誘導する新しい間接的インジェクション攻撃であるtextscVortexPIAを提案する。
論文 参考訳(メタデータ) (2025-10-05T15:58:55Z) - Multi-Stage Prompt Inference Attacks on Enterprise LLM Systems [18.039444159491733]
エンタープライズ環境にデプロイされる大規模言語モデル(LLM)は、新たなセキュリティ課題に直面している。
敵同士が連携して、徐々に機密データを抽出するように仕向ける。
企業LLMコンテキストにおける多段階的プロンプト推論攻撃の包括的研究について述べる。
論文 参考訳(メタデータ) (2025-07-21T13:38:12Z) - LiteLMGuard: Seamless and Lightweight On-Device Prompt Filtering for Safeguarding Small Language Models against Quantization-induced Risks and Vulnerabilities [1.460362586787935]
LiteLMGuard (LLMG) は、量子化されたSLMのリアルタイムかつ迅速な防御を提供する。
LLMGは、深層学習(DL)に基づく即時応答可能性分類タスクとしてプロンプトフィルタリングを形式化する。
LLMGは、ダイレクトインストラクションとジェイルブレイク攻撃戦略を含む有害なプロンプトの87%以上を防御している。
論文 参考訳(メタデータ) (2025-05-08T19:58:41Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
敵のプロンプトは外部のデータソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を10%に下げる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。