論文の概要: PrivAgent: Agentic-based Red-teaming for LLM Privacy Leakage
- arxiv url: http://arxiv.org/abs/2412.05734v1
- Date: Sat, 07 Dec 2024 20:09:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:26.822210
- Title: PrivAgent: Agentic-based Red-teaming for LLM Privacy Leakage
- Title(参考訳): PrivAgent: LLMプライバシリークのためのエージェントベースのレッドチーム
- Authors: Yuzhou Nie, Zhun Wang, Ye Yu, Xian Wu, Xuandong Zhao, Wenbo Guo, Dawn Song,
- Abstract要約: LLMは、慎重に構築された敵のプロンプトの下で私的情報を出力することに騙される可能性がある。
PrivAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。
- 参考スコア(独自算出の注目度): 78.33839735526769
- License:
- Abstract: Recent studies have discovered that LLMs have serious privacy leakage concerns, where an LLM may be fooled into outputting private information under carefully crafted adversarial prompts. These risks include leaking system prompts, personally identifiable information, training data, and model parameters. Most existing red-teaming approaches for privacy leakage rely on humans to craft the adversarial prompts. A few automated methods are proposed for system prompt extraction, but they cannot be applied to more severe risks (e.g., training data extraction) and have limited effectiveness even for system prompt extraction. In this paper, we propose PrivAgent, a novel black-box red-teaming framework for LLM privacy leakage. We formulate different risks as a search problem with a unified attack goal. Our framework trains an open-source LLM through reinforcement learning as the attack agent to generate adversarial prompts for different target models under different risks. We propose a novel reward function to provide effective and fine-grained rewards for the attack agent. Finally, we introduce customizations to better fit our general framework to system prompt extraction and training data extraction. Through extensive evaluations, we first show that PrivAgent outperforms existing automated methods in system prompt leakage against six popular LLMs. Notably, our approach achieves a 100% success rate in extracting system prompts from real-world applications in OpenAI's GPT Store. We also show PrivAgent's effectiveness in extracting training data from an open-source LLM with a success rate of 5.9%. We further demonstrate PrivAgent's effectiveness in evading the existing guardrail defense and its helpfulness in enabling better safety alignment. Finally, we validate our customized designs through a detailed ablation study. We release our code here https://github.com/rucnyz/RedAgent.
- Abstract(参考訳): 近年の研究では、LSMには深刻なプライバシー漏洩の懸念があり、LSMは慎重に構築された敵のプロンプトの下で私的情報を出力することを騙される可能性があることが判明している。
これらのリスクには、システムプロンプトの漏洩、個人識別可能な情報、トレーニングデータ、モデルパラメータなどが含まれる。
プライバシー漏洩に対する既存のレッドチーム方式のアプローチは、人間に敵のプロンプトを作らせている。
システムプロンプト抽出にはいくつかの自動化手法が提案されているが、より深刻なリスク(例えば、トレーニングデータ抽出)に適用することはできず、システムプロンプト抽出にも限界がある。
本稿では,LLMプライバシー漏洩のための新しいブラックボックスレッドチームフレームワークであるPrivAgentを提案する。
攻撃目標を統一した探索問題として異なるリスクを定式化する。
我々のフレームワークは、異なるリスク下で異なるターゲットモデルに対する敵対的プロンプトを生成するために、強化学習を通じてオープンソースのLLMを攻撃エージェントとして訓練する。
本稿では,攻撃剤に対して効果的かつきめ細かな報酬を与える新たな報酬関数を提案する。
最後に,データの抽出とトレーニングを行うシステムに,私たちの一般的なフレームワークに適合するカスタマイズを導入する。
広汎な評価により,PrivAgentは6つのLLMに対して,既存の自動手法よりも高い性能を示すことを示す。
特に,本手法は,OpenAIのGPTストアにおける実世界のアプリケーションからシステムプロンプトを抽出する際の100%の成功率を達成する。
また,PrivAgent がオープンソース LLM からトレーニングデータ抽出に有効であることを示す。
さらに,PrivAgentが既存のガードレール防御を回避し,安全性向上に有効であることを示す。
最後に、詳細なアブレーション研究を通じて、カスタマイズした設計を検証する。
コードについては、https://github.com/rucnyz/RedAgent.comで公開しています。
関連論文リスト
- Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach [9.483655213280738]
本稿では,大規模言語モデル(LLM)の安全性を評価するための新しいアプローチを提案する。
我々は、プロンプトリークをLLMデプロイメントの安全性にとって重要な脅威と定義する。
我々は,協調エージェントが目的のLLMを探索・活用し,そのプロンプトを抽出するマルチエージェントシステムを実装した。
論文 参考訳(メタデータ) (2025-02-18T08:17:32Z) - Unveiling Privacy Risks in LLM Agent Memory [40.26158509307175]
大規模言語モデル(LLM)エージェントは、様々な現実世界のアプリケーションでますます普及している。
デモのためにメモリモジュールにプライベートユーザエージェントインタラクションを格納することで、意思決定を強化する。
本稿では,メモリからプライベート情報を抽出するメモリ・エクストルーアクション・アタック(MEXTRA)を提案する。
論文 参考訳(メタデータ) (2025-02-17T19:55:53Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
アドリアルプロンプトは外部データソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を約0%に低下させる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。
我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。
GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z) - BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents [26.057916556444333]
提案手法は,BadAgentというバックドア攻撃に対して脆弱であることを示す。
提案手法は信頼性のあるデータを微調整した後でも極めて堅牢である。
論文 参考訳(メタデータ) (2024-06-05T07:14:28Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。