論文の概要: Investigating the prompt leakage effect and black-box defenses for multi-turn LLM interactions
- arxiv url: http://arxiv.org/abs/2404.16251v2
- Date: Fri, 26 Apr 2024 07:47:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:06:07.867130
- Title: Investigating the prompt leakage effect and black-box defenses for multi-turn LLM interactions
- Title(参考訳): マルチターンLDM相互作用における急速漏洩効果とブラックボックス防御の検討
- Authors: Divyansh Agarwal, Alexander R. Fabbri, Philippe Laban, Ben Risher, Shafiq Joty, Caiming Xiong, Chien-Sheng Wu,
- Abstract要約: 大きな言語モデル(LLM)の漏洩は、セキュリティとプライバシの重大な脅威を引き起こす。
マルチターンLDM相互作用の漏洩と緩和戦略は、標準化された方法では研究されていない。
本稿では,4つの異なるドメインと10のクローズドおよびオープンソース LLM にまたがる急激なリークに対するLSM 脆弱性について検討する。
- 参考スコア(独自算出の注目度): 125.21418304558948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt leakage in large language models (LLMs) poses a significant security and privacy threat, particularly in retrieval-augmented generation (RAG) systems. However, leakage in multi-turn LLM interactions along with mitigation strategies has not been studied in a standardized manner. This paper investigates LLM vulnerabilities against prompt leakage across 4 diverse domains and 10 closed- and open-source LLMs. Our unique multi-turn threat model leverages the LLM's sycophancy effect and our analysis dissects task instruction and knowledge leakage in the LLM response. In a multi-turn setting, our threat model elevates the average attack success rate (ASR) to 86.2%, including a 99% leakage with GPT-4 and claude-1.3. We find that some black-box LLMs like Gemini show variable susceptibility to leakage across domains - they are more likely to leak contextual knowledge in the news domain compared to the medical domain. Our experiments measure specific effects of 6 black-box defense strategies, including a query-rewriter in the RAG scenario. Our proposed multi-tier combination of defenses still has an ASR of 5.3% for black-box LLMs, indicating room for enhancement and future direction for LLM security research.
- Abstract(参考訳): 大規模言語モデル(LLM)のプロンプトリークは、特に検索強化世代(RAG)システムにおいて、重大なセキュリティとプライバシの脅威を引き起こす。
しかし, マルチターンLDM相互作用と緩和戦略のリークは, 標準化された方法では研究されていない。
本稿では,4つの異なるドメインと10のクローズドおよびオープンソース LLM にまたがる急激なリークに対するLSM 脆弱性について検討する。
我々のユニークなマルチターン脅威モデルでは, LLMのサイコファンシー効果を活用し, LLM応答におけるタスク命令と知識リークを識別する。
マルチターン環境では,GPT-4およびclaude-1.3による99%のリークを含む平均攻撃成功率(ASR)が86.2%に上昇する。
GeminiのようなブラックボックスのLCMの中には、ドメイン間のリークに対する様々な感受性を示すものもあります - 医療ドメインと比較して、ニュースドメインのコンテキスト知識をリークする傾向があります。
実験では,RAGシナリオにおけるクエリリライタを含む6つのブラックボックス防衛戦略の具体的な効果を測定した。
提案する多層防御の組み合わせは, ブラックボックスLLMのASRは5.3%であり, LLMセキュリティ研究の強化と今後の方向性を示す余地がある。
関連論文リスト
- Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue Coreference [29.55937864144965]
この研究は,大規模言語モデル(LLM)におけるマルチターン対話コアの安全性を初めて研究したものである。
私たちは14のカテゴリで1,400の質問のデータセットを作成しました。
LLaMA2-Chat-7bモデルでは56%、Mistral-7B-Instructモデルでは13.9%であった。
論文 参考訳(メタデータ) (2024-06-25T15:13:02Z) - Increased LLM Vulnerabilities from Fine-tuning and Quantization [0.0]
大規模言語モデル(LLM)は非常に人気があり、多くのドメインでユースケースが発見されている。
LLMは、ジェイルブレイク、インジェクション攻撃、プライバシー漏洩攻撃など、さまざまなタイプの攻撃に対して脆弱である。
細調整と量子化により脱獄抵抗が大幅に減少し,LSMの脆弱性が増大することを示した。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - A New Era in LLM Security: Exploring Security Concerns in Real-World
LLM-based Systems [47.18371401090435]
我々は,LLMではなく,Large Language Model(LLM)システムのセキュリティを分析する。
我々は,多層・多段階のアプローチを提案し,これを最先端のOpenAI GPT4に適用する。
OpenAI GPT4は安全機能を改善するために多くの安全制約を設計しているが、これらの安全制約は攻撃者に対して脆弱である。
論文 参考訳(メタデータ) (2024-02-28T19:00:12Z) - Speak Out of Turn: Safety Vulnerability of Large Language Models in
Multi-turn Dialogue [10.703193963273128]
大規模言語モデル(LLM)は、違法または非倫理的な応答を生成することが実証されている。
本稿では,人間は多ターン対話を利用してLSMを誘導し,有害な情報を生成することができると論じる。
論文 参考訳(メタデータ) (2024-02-27T07:11:59Z) - LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing
LLMs' Vulnerability Reasoning [18.025174693883788]
大規模言語モデル (LLMs) は、脆弱性検出を含む多くの下流タスクに対して重要なポテンティルを証明している。
LLMの脆弱性検出に利用しようとする最近の試みは、LLMの脆弱性推論能力の詳細な理解が欠如しているため、予備的な初期化である。
LLM4Vulnという名前の統一評価フレームワークを提案し、LLMの脆弱性を他の機能と区別する。
論文 参考訳(メタデータ) (2024-01-29T14:32:27Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。