論文の概要: Investigating the prompt leakage effect and black-box defenses for multi-turn LLM interactions
- arxiv url: http://arxiv.org/abs/2404.16251v1
- Date: Wed, 24 Apr 2024 23:39:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 15:07:57.313768
- Title: Investigating the prompt leakage effect and black-box defenses for multi-turn LLM interactions
- Title(参考訳): マルチターンLDM相互作用における急速漏洩効果とブラックボックス防御の検討
- Authors: Divyansh Agarwal, Alexander R. Fabbri, Philippe Laban, Shafiq Joty, Caiming Xiong, Chien-Sheng Wu,
- Abstract要約: 大きな言語モデル(LLM)の漏洩は、セキュリティとプライバシの重大な脅威を引き起こす。
マルチターンLDM相互作用の漏洩と緩和戦略は、標準化された方法では研究されていない。
本稿では,4つの異なるドメインと10のクローズドおよびオープンソース LLM にまたがる急激なリークに対するLSM 脆弱性について検討する。
- 参考スコア(独自算出の注目度): 130.6071837228068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt leakage in large language models (LLMs) poses a significant security and privacy threat, particularly in retrieval-augmented generation (RAG) systems. However, leakage in multi-turn LLM interactions along with mitigation strategies has not been studied in a standardized manner. This paper investigates LLM vulnerabilities against prompt leakage across 4 diverse domains and 10 closed- and open-source LLMs. Our unique multi-turn threat model leverages the LLM's sycophancy effect and our analysis dissects task instruction and knowledge leakage in the LLM response. In a multi-turn setting, our threat model elevates the average attack success rate (ASR) to 86.2%, including a 99% leakage with GPT-4 and claude-1.3. We find that some black-box LLMs like Gemini show variable susceptibility to leakage across domains - they are more likely to leak contextual knowledge in the news domain compared to the medical domain. Our experiments measure specific effects of 6 black-box defense strategies, including a query-rewriter in the RAG scenario. Our proposed multi-tier combination of defenses still has an ASR of 5.3% for black-box LLMs, indicating room for enhancement and future direction for LLM security research.
- Abstract(参考訳): 大規模言語モデル(LLM)のプロンプトリークは、特に検索強化世代(RAG)システムにおいて、重大なセキュリティとプライバシの脅威を引き起こす。
しかし, マルチターンLDM相互作用と緩和戦略のリークは, 標準化された方法では研究されていない。
本稿では,4つの異なるドメインと10のクローズドおよびオープンソース LLM にまたがる急激なリークに対するLSM 脆弱性について検討する。
我々のユニークなマルチターン脅威モデルでは, LLMのサイコファンシー効果を活用し, LLM応答におけるタスク命令と知識リークを識別する。
マルチターン環境では,GPT-4およびclaude-1.3による99%のリークを含む平均攻撃成功率(ASR)が86.2%に上昇する。
GeminiのようなブラックボックスのLCMの中には、ドメイン間のリークに対する様々な感受性を示すものもあります - 医療ドメインと比較して、ニュースドメインのコンテキスト知識をリークする傾向があります。
実験では,RAGシナリオにおけるクエリリライタを含む6つのブラックボックス防衛戦略の具体的な効果を測定した。
提案する多層防御の組み合わせは, ブラックボックスLLMのASRは5.3%であり, LLMセキュリティ研究の強化と今後の方向性を示す余地がある。
関連論文リスト
- Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
MLLMの安全性を意識した新しいトレーニング不要保護手法ECSO(Eyes Closed, Safety On, Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、あらかじめ整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - A New Era in LLM Security: Exploring Security Concerns in Real-World
LLM-based Systems [47.18371401090435]
我々は,LLMではなく,Large Language Model(LLM)システムのセキュリティを分析する。
我々は,多層・多段階のアプローチを提案し,これを最先端のOpenAI GPT4に適用する。
OpenAI GPT4は安全機能を改善するために多くの安全制約を設計しているが、これらの安全制約は攻撃者に対して脆弱である。
論文 参考訳(メタデータ) (2024-02-28T19:00:12Z) - Speak Out of Turn: Safety Vulnerability of Large Language Models in
Multi-turn Dialogue [10.703193963273128]
大規模言語モデル(LLM)は、違法または非倫理的な応答を生成することが実証されている。
本稿では,人間は多ターン対話を利用してLSMを誘導し,有害な情報を生成することができると論じる。
論文 参考訳(メタデータ) (2024-02-27T07:11:59Z) - LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing
LLMs' Vulnerability Reasoning [18.025174693883788]
大規模言語モデル (LLMs) は、脆弱性検出を含む多くの下流タスクに対して重要なポテンティルを証明している。
LLMの脆弱性検出に利用しようとする最近の試みは、LLMの脆弱性推論能力の詳細な理解が欠如しているため、予備的な初期化である。
LLM4Vulnという名前の統一評価フレームワークを提案し、LLMの脆弱性を他の機能と区別する。
論文 参考訳(メタデータ) (2024-01-29T14:32:27Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models [11.693095252994482]
硬質および軟質のプロンプトベースのLLMを両立させる新しいバックドアアタックであるPOISONPROMPTを提案する。
本研究は,プロンプトをベースとしたLSMに対するバックドア攻撃によるセキュリティの脅威を浮き彫りにし,さらなる研究の必要性を強調した。
論文 参考訳(メタデータ) (2023-10-19T03:25:28Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Goal-Oriented Prompt Attack and Safety Evaluation for LLMs [43.93613764464993]
高品質なプロンプト攻撃サンプルを構築するパイプラインと、CPADと呼ばれる中国のプロンプト攻撃データセットを導入する。
我々のプロンプトは、慎重に設計されたいくつかのプロンプトアタックテンプレートで、予期せぬ出力を生成するためにLSMを誘導することを目的としている。
GPT-3.5に対する攻撃成功率は70%程度であった。
論文 参考訳(メタデータ) (2023-09-21T07:07:49Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。