論文の概要: PrivAgent: Agentic-based Red-teaming for LLM Privacy Leakage
- arxiv url: http://arxiv.org/abs/2412.05734v1
- Date: Sat, 07 Dec 2024 20:09:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:26.822210
- Title: PrivAgent: Agentic-based Red-teaming for LLM Privacy Leakage
- Title(参考訳): PrivAgent: LLMプライバシリークのためのエージェントベースのレッドチーム
- Authors: Yuzhou Nie, Zhun Wang, Ye Yu, Xian Wu, Xuandong Zhao, Wenbo Guo, Dawn Song,
- Abstract要約: LLMは、慎重に構築された敵のプロンプトの下で私的情報を出力することに騙される可能性がある。
PrivAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。
- 参考スコア(独自算出の注目度): 78.33839735526769
- License:
- Abstract: Recent studies have discovered that LLMs have serious privacy leakage concerns, where an LLM may be fooled into outputting private information under carefully crafted adversarial prompts. These risks include leaking system prompts, personally identifiable information, training data, and model parameters. Most existing red-teaming approaches for privacy leakage rely on humans to craft the adversarial prompts. A few automated methods are proposed for system prompt extraction, but they cannot be applied to more severe risks (e.g., training data extraction) and have limited effectiveness even for system prompt extraction. In this paper, we propose PrivAgent, a novel black-box red-teaming framework for LLM privacy leakage. We formulate different risks as a search problem with a unified attack goal. Our framework trains an open-source LLM through reinforcement learning as the attack agent to generate adversarial prompts for different target models under different risks. We propose a novel reward function to provide effective and fine-grained rewards for the attack agent. Finally, we introduce customizations to better fit our general framework to system prompt extraction and training data extraction. Through extensive evaluations, we first show that PrivAgent outperforms existing automated methods in system prompt leakage against six popular LLMs. Notably, our approach achieves a 100% success rate in extracting system prompts from real-world applications in OpenAI's GPT Store. We also show PrivAgent's effectiveness in extracting training data from an open-source LLM with a success rate of 5.9%. We further demonstrate PrivAgent's effectiveness in evading the existing guardrail defense and its helpfulness in enabling better safety alignment. Finally, we validate our customized designs through a detailed ablation study. We release our code here https://github.com/rucnyz/RedAgent.
- Abstract(参考訳): 近年の研究では、LSMには深刻なプライバシー漏洩の懸念があり、LSMは慎重に構築された敵のプロンプトの下で私的情報を出力することを騙される可能性があることが判明している。
これらのリスクには、システムプロンプトの漏洩、個人識別可能な情報、トレーニングデータ、モデルパラメータなどが含まれる。
プライバシー漏洩に対する既存のレッドチーム方式のアプローチは、人間に敵のプロンプトを作らせている。
システムプロンプト抽出にはいくつかの自動化手法が提案されているが、より深刻なリスク(例えば、トレーニングデータ抽出)に適用することはできず、システムプロンプト抽出にも限界がある。
本稿では,LLMプライバシー漏洩のための新しいブラックボックスレッドチームフレームワークであるPrivAgentを提案する。
攻撃目標を統一した探索問題として異なるリスクを定式化する。
我々のフレームワークは、異なるリスク下で異なるターゲットモデルに対する敵対的プロンプトを生成するために、強化学習を通じてオープンソースのLLMを攻撃エージェントとして訓練する。
本稿では,攻撃剤に対して効果的かつきめ細かな報酬を与える新たな報酬関数を提案する。
最後に,データの抽出とトレーニングを行うシステムに,私たちの一般的なフレームワークに適合するカスタマイズを導入する。
広汎な評価により,PrivAgentは6つのLLMに対して,既存の自動手法よりも高い性能を示すことを示す。
特に,本手法は,OpenAIのGPTストアにおける実世界のアプリケーションからシステムプロンプトを抽出する際の100%の成功率を達成する。
また,PrivAgent がオープンソース LLM からトレーニングデータ抽出に有効であることを示す。
さらに,PrivAgentが既存のガードレール防御を回避し,安全性向上に有効であることを示す。
最後に、詳細なアブレーション研究を通じて、カスタマイズした設計を検証する。
コードについては、https://github.com/rucnyz/RedAgent.comで公開しています。
関連論文リスト
- Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Evaluating Large Language Model based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)は、攻撃者が個人プロファイルから様々な個人情報を正確に抽出するために誤用することができる。
LLMはそのような抽出において従来の方法より優れている。
即時注射は、そのようなリスクを広範囲に軽減し、従来の対策より優れている。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - MaPPing Your Model: Assessing the Impact of Adversarial Attacks on LLM-based Programming Assistants [14.947665219536708]
本稿では,攻撃者がプログラムタスクのプロンプトに少量のテキストを付加するMalicious Programming Prompt(MaPP)攻撃を紹介する。
我々の迅速な戦略は、LSMが他の方法で正しいコードを書き続けながら脆弱性を追加する可能性があることを示しています。
論文 参考訳(メタデータ) (2024-07-12T22:30:35Z) - BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents [26.057916556444333]
提案手法は,BadAgentというバックドア攻撃に対して脆弱であることを示す。
提案手法は信頼性のあるデータを微調整した後でも極めて堅牢である。
論文 参考訳(メタデータ) (2024-06-05T07:14:28Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。