Fugu-MT 論文翻訳(概要): PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization

論文の概要: PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization

arxiv url: http://arxiv.org/abs/2511.16209v1
Date: Thu, 20 Nov 2025 10:25:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-21 17:08:52.570359
Title: PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization
Title（参考訳）: PSM: LLM-Guided Black-Box Optimizationによるプロンプト感度最小化
Authors: Huseein Jawad, Nicolas Brunel,
Abstract要約: 本稿では,シールド付加によるシステムプロンプト硬化のための新しいフレームワークを提案する。我々は、LSM-as-optimizerを利用してShiELDの空間を探索し、敵攻撃の組から導かれる漏洩量を最小限に抑える。最適化されたShielDは、包括的な抽出攻撃に対する急激なリークを著しく低減することを示した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: System prompts are critical for guiding the behavior of Large Language Models (LLMs), yet they often contain proprietary logic or sensitive information, making them a prime target for extraction attacks. Adversarial queries can successfully elicit these hidden instructions, posing significant security and privacy risks. Existing defense mechanisms frequently rely on heuristics, incur substantial computational overhead, or are inapplicable to models accessed via black-box APIs. This paper introduces a novel framework for hardening system prompts through shield appending, a lightweight approach that adds a protective textual layer to the original prompt. Our core contribution is the formalization of prompt hardening as a utility-constrained optimization problem. We leverage an LLM-as-optimizer to search the space of possible SHIELDs, seeking to minimize a leakage metric derived from a suite of adversarial attacks, while simultaneously preserving task utility above a specified threshold, measured by semantic fidelity to baseline outputs. This black-box, optimization-driven methodology is lightweight and practical, requiring only API access to the target and optimizer LLMs. We demonstrate empirically that our optimized SHIELDs significantly reduce prompt leakage against a comprehensive set of extraction attacks, outperforming established baseline defenses without compromising the model's intended functionality. Our work presents a paradigm for developing robust, utility-aware defenses in the escalating landscape of LLM security. The code is made public on the following link: https://github.com/psm-defense/psm
Abstract（参考訳）: システムプロンプトは、LLM(Large Language Models)の振る舞いを導く上で重要であるが、プロプライエタリなロジックやセンシティブな情報を含んでいることが多く、攻撃を抽出するための主要なターゲットとなっている。敵対的なクエリは、これらの隠された命令をうまく引き出すことができ、重大なセキュリティとプライバシのリスクを生じさせる。既存の防御機構は、しばしばヒューリスティックに依存し、かなりの計算オーバーヘッドを発生させるか、ブラックボックスAPIを通じてアクセスされるモデルには適用できない。本稿では,従来のプロンプトに保護的なテクスチャ層を追加する軽量なアプローチであるシールド付加により,システムプロンプトを硬化させる新しいフレームワークを提案する。当社のコアコントリビューションは,実用性に制約のある最適化問題としての即時硬化の形式化です。 LLM-as-optimizerを用いてShiELDの空間を探索し、敵攻撃の組から導かれるリークメトリックを最小化し、同時に特定のしきい値の上にタスクユーティリティを保存し、ベースライン出力に対する意味的忠実度によって測定する。このブラックボックスで最適化駆動の方法論は軽量で実用的であり、ターゲットとオプティマイザのLLMへのAPIアクセスしか必要としない。最適化されたShielDは、モデルが意図した機能を損なうことなく、既存のベースラインディフェンスよりも優れており、包括的な抽出攻撃に対する迅速なリークを著しく低減することを示した。本研究は,LLMセキュリティの高度化にともなう状況において,堅牢で実用性に配慮した防御を開発するためのパラダイムを提案する。コードは以下のリンクで公開されている。 https://github.com/psm-defense/psm

論文の概要: PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization

関連論文リスト