論文の概要: You Can't Steal Nothing: Mitigating Prompt Leakages in LLMs via System Vectors
- arxiv url: http://arxiv.org/abs/2509.21884v1
- Date: Fri, 26 Sep 2025 05:17:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.195385
- Title: You Can't Steal Nothing: Mitigating Prompt Leakages in LLMs via System Vectors
- Title(参考訳): LLMの漏れをシステムベクターで軽減できる方法
- Authors: Bochuan Cao, Changjiang Li, Yuanpu Cao, Yameng Ge, Ting Wang, Jinghui Chen,
- Abstract要約: 大規模言語モデル(LLM)は様々なアプリケーションで広く採用されており、多様なタスクにカスタマイズされたシステムプロンプトを活用している。
本稿では,そのようなリスクを明らかにするために,単純かつ効果的なプロンプトリーク攻撃を提案する。
本稿では,システムプロンプトを生テキストではなく内部表現ベクトルとして符号化するSysVecを提案する。
- 参考スコア(独自算出の注目度): 35.7962770137456
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have been widely adopted across various applications, leveraging customized system prompts for diverse tasks. Facing potential system prompt leakage risks, model developers have implemented strategies to prevent leakage, primarily by disabling LLMs from repeating their context when encountering known attack patterns. However, it remains vulnerable to new and unforeseen prompt-leaking techniques. In this paper, we first introduce a simple yet effective prompt leaking attack to reveal such risks. Our attack is capable of extracting system prompts from various LLM-based application, even from SOTA LLM models such as GPT-4o or Claude 3.5 Sonnet. Our findings further inspire us to search for a fundamental solution to the problems by having no system prompt in the context. To this end, we propose SysVec, a novel method that encodes system prompts as internal representation vectors rather than raw text. By doing so, SysVec minimizes the risk of unauthorized disclosure while preserving the LLM's core language capabilities. Remarkably, this approach not only enhances security but also improves the model's general instruction-following abilities. Experimental results demonstrate that SysVec effectively mitigates prompt leakage attacks, preserves the LLM's functional integrity, and helps alleviate the forgetting issue in long-context scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なアプリケーションで広く採用されており、多様なタスクにカスタマイズされたシステムプロンプトを活用している。
潜在的なシステムのリークリスクに直面すると、モデル開発者はリーク防止戦略を実装し、主に、既知の攻撃パターンに遭遇する際のLLMのコンテキストの繰り返しを無効にすることで、漏洩を防止する。
しかし、新しい、予期せぬ急進的学習技術に弱いままである。
本稿では,このようなリスクを明らかにするために,まず,シンプルながら効果的なプロンプトリーク攻撃を提案する。
我々の攻撃は, GPT-4o や Claude 3.5 Sonnet などの SOTA LLM モデルであっても, 様々な LLM ベースのアプリケーションからシステムプロンプトを抽出することができる。
さらに,システム・プロンプトを含まないことで,問題の根本的な解決法を探究するきっかけとなった。
そこで本研究では,システムプロンプトを生テキストではなく内部表現ベクトルとして符号化するSysVecを提案する。
これにより、SysVecはLLMのコア言語機能を維持しながら、許可されていない開示のリスクを最小限に抑えることができる。
注目すべきは、このアプローチによってセキュリティが向上するだけでなく、モデルの一般的な命令追従能力も向上することだ。
実験の結果、SysVecは、迅速な漏洩攻撃を効果的に軽減し、LLMの機能的整合性を保ち、長いコンテキストシナリオにおける忘れの問題を軽減することが示されている。
関連論文リスト
- SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
敵のプロンプトは外部のデータソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を10%に下げる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - PLeak: Prompt Leaking Attacks against Large Language Model Applications [20.122631273512255]
プロンプトリークと呼ばれる自然な攻撃は、LLMアプリケーションからシステムプロンプトを盗むことである。
本稿では, PLeak と呼ばれる新しいクローズドボックス・プロンプト・リーク・アタック・フレームワークを設計し, 対向クエリを最適化する。
この結果から,PLeakはシステムプロンプトを効果的にリークし,手動でクエリをキュレートするベースラインだけでなく,性能も著しく向上することが示された。
論文 参考訳(メタデータ) (2024-05-10T21:52:34Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。