論文の概要: Safeguarding System Prompts for LLMs
- arxiv url: http://arxiv.org/abs/2412.13426v1
- Date: Wed, 18 Dec 2024 01:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:46:52.026922
- Title: Safeguarding System Prompts for LLMs
- Title(参考訳): LLMの安全対策
- Authors: Zhifeng Jiang, Zhihua Jin, Guoliang He,
- Abstract要約: 大規模言語モデル(LLM)は、システムプロンプトが重要な役割を果たすアプリケーションでますます利用されている。
敵や通常のユーザクエリでさえ、これらの隠れたプロンプトを公開するために脆弱性を悪用することができる。
本稿では,プライバシのプロンプトキーパー(PromptKeeper)について紹介する。
- 参考スコア(独自算出の注目度): 7.869092877871087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly utilized in applications where system prompts, which guide model outputs, play a crucial role. These prompts often contain business logic and sensitive information, making their protection essential. However, adversarial and even regular user queries can exploit LLM vulnerabilities to expose these hidden prompts. To address this issue, we present PromptKeeper, a novel defense mechanism for system prompt privacy. By reliably detecting worst-case leakage and regenerating outputs without the system prompt when necessary, PromptKeeper ensures robust protection against prompt extraction attacks via either adversarial or regular queries, while preserving conversational capability and runtime efficiency during benign user interactions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、モデル出力を誘導するシステムプロンプトが重要な役割を果たすアプリケーションでますます活用されている。
これらのプロンプトにはビジネスロジックや機密情報が含まれており、保護が不可欠である。
しかし、敵や通常のユーザクエリでさえも、LSMの脆弱性を利用してこれらの隠されたプロンプトを公開することができる。
この問題に対処するため,プライバシを促進させる新しい防御機構であるPromptKeeperを提案する。
PromptKeeperは、システムプロンプトを必要とせずに最悪のケースのリークを確実に検出し、出力を再生することにより、対向的または正規的なクエリによる迅速な抽出攻撃に対して堅牢な保護を保証し、良質なユーザインタラクションの間、会話能力と実行効率を保ちます。
関連論文リスト
- CachePrune: Neural-Based Attribution Defense Against Indirect Prompt Injection Attacks [47.62236306990252]
大規模言語モデル (LLM) は間接的なインジェクション攻撃の影響を受けやすい。
この脆弱性は、プロンプト内のデータと命令を区別できないLLMが原因である。
本稿では,タスクトリガリングニューロンの識別と解析により,この攻撃を防御するCachePruneを提案する。
論文 参考訳(メタデータ) (2025-04-29T23:42:21Z) - Breaking the Prompt Wall (I): A Real-World Case Study of Attacking ChatGPT via Lightweight Prompt Injection [12.565784666173277]
本報告では,ChatGPTのような大規模言語モデルプラットフォームに対して,インジェクションのプロンプトがどう作用するかを示す実例を示す。
本稿では,ユーザ入力や Web ベース検索,システムレベルのエージェント命令を通じて,敵対的プロンプトをインジェクションする方法を示す。
論文 参考訳(メタデータ) (2025-04-20T05:59:00Z) - UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor Attacks and Adversarial Attacks in Large Language Models [30.139590566956077]
大規模言語モデル(LLM)は、迅速なインジェクション、バックドアアタック、敵攻撃のような攻撃に対して脆弱である。
我々は,LLMにおける即時注入,バックドア攻撃,敵攻撃を検出するために設計された,最初の統一防御機構であるUniGuardianを提案する。
論文 参考訳(メタデータ) (2025-02-18T18:59:00Z) - Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach [9.483655213280738]
本稿では,大規模言語モデル(LLM)の安全性を評価するための新しいアプローチを提案する。
我々は、プロンプトリークをLLMデプロイメントの安全性にとって重要な脅威と定義する。
我々は,協調エージェントが目的のLLMを探索・活用し,そのプロンプトを抽出するマルチエージェントシステムを実装した。
論文 参考訳(メタデータ) (2025-02-18T08:17:32Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Ownership Verification with Reasoning [58.57194301645823]
大規模言語モデル (LLM) は、検索強化生成機構 (RAG) を通じて現実のアプリケーションに統合されつつある。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、通常、中毒攻撃を伴う。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Safeguard is a Double-edged Sword: Denial-of-service Attack on Large Language Models [7.013820690538764]
大規模言語モデル(LLM)に対する新たなDoS攻撃を提案する。
ソフトウェアやフィッシング攻撃によって、攻撃者は短い、一見無害な敵のプロンプトを設定ファイルのユーザープロンプトに挿入する。
我々の攻撃は、Llama Guard 3の97%以上のユーザリクエストを普遍的にブロックする、約30文字の、一見安全な敵のプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2024-10-03T19:07:53Z) - Confidential Prompting: Protecting User Prompts from Cloud LLM Providers [0.688204255655161]
当社の作業は,クラウドホスト型大規模言語モデル(LLM)サービスにおけるユーザインプットの確保という課題に対処する。
秘密計算を利用してユーザプロンプトを信頼できる実行環境に閉じ込めるセキュアなマルチパーティデコーディング(SMD)を導入する。
提案手法は, 迅速な秘密保持とLCM機能効率の両立を実証する。
論文 参考訳(メタデータ) (2024-09-27T20:32:42Z) - AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
本稿では,AdvPrompterと呼ばれる新たな大規模言語モデルを用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。
我々は、ターゲットLLMの勾配にアクセスする必要がない新しいアルゴリズムを用いてAdvPrompterを訓練する。
訓練されたAdvPrompterは、TargetLLMを誘引して有害な応答を与えるように、意味を変えずに入力命令を無効にする接尾辞を生成する。
論文 参考訳(メタデータ) (2024-04-21T22:18:13Z) - DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers [74.7446827091938]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。
DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文 参考訳(メタデータ) (2024-02-25T17:43:29Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - ConfusionPrompt: Practical Private Inference for Online Large Language Models [3.8134804426693094]
最先端の大規模言語モデル(LLM)は一般的にオンラインサービスとしてデプロイされ、ユーザーはクラウドサーバーに詳細なプロンプトを送信する必要がある。
我々は,従来のプロンプトを小さなサブプロンプトに分解することで,ユーザのプライバシを保護する,プライベートLLM推論のための新しいフレームワークであるConfusionPromptを紹介する。
コンフュージョンプロンプトは,オープンソースモデルと摂動に基づく手法を用いて,局所的推論手法よりもはるかに高い実用性を実現することを示す。
論文 参考訳(メタデータ) (2023-12-30T01:26:42Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - Effective Prompt Extraction from Language Models [70.00099540536382]
本稿では,迅速な抽出攻撃の有効性を評価するための枠組みを提案する。
3つの異なるプロンプトと11の基盤となる大規模言語モデルによる実験では、単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。
本フレームワークは,抽出したプロンプトがモデル幻覚ではなく実際の秘密プロンプトであるか否かを高精度に判定する。
論文 参考訳(メタデータ) (2023-07-13T16:15:08Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。