Fugu-MT 論文翻訳(概要): PrivAgent: Agentic-based Red-teaming for LLM Privacy Leakage

論文の概要: PrivAgent: Agentic-based Red-teaming for LLM Privacy Leakage

arxiv url: http://arxiv.org/abs/2412.05734v1
Date: Sat, 07 Dec 2024 20:09:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:43.994799
Title: PrivAgent: Agentic-based Red-teaming for LLM Privacy Leakage
Title（参考訳）: PrivAgent: LLMプライバシリークのためのエージェントベースのレッドチーム
Authors: Yuzhou Nie, Zhun Wang, Ye Yu, Xian Wu, Xuandong Zhao, Wenbo Guo, Dawn Song,
Abstract要約: LLMは、慎重に構築された敵のプロンプトの下で私的情報を出力することに騙される可能性がある。 PrivAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。
参考スコア（独自算出の注目度）: 78.33839735526769
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies have discovered that LLMs have serious privacy leakage concerns, where an LLM may be fooled into outputting private information under carefully crafted adversarial prompts. These risks include leaking system prompts, personally identifiable information, training data, and model parameters. Most existing red-teaming approaches for privacy leakage rely on humans to craft the adversarial prompts. A few automated methods are proposed for system prompt extraction, but they cannot be applied to more severe risks (e.g., training data extraction) and have limited effectiveness even for system prompt extraction. In this paper, we propose PrivAgent, a novel black-box red-teaming framework for LLM privacy leakage. We formulate different risks as a search problem with a unified attack goal. Our framework trains an open-source LLM through reinforcement learning as the attack agent to generate adversarial prompts for different target models under different risks. We propose a novel reward function to provide effective and fine-grained rewards for the attack agent. Finally, we introduce customizations to better fit our general framework to system prompt extraction and training data extraction. Through extensive evaluations, we first show that PrivAgent outperforms existing automated methods in system prompt leakage against six popular LLMs. Notably, our approach achieves a 100% success rate in extracting system prompts from real-world applications in OpenAI's GPT Store. We also show PrivAgent's effectiveness in extracting training data from an open-source LLM with a success rate of 5.9%. We further demonstrate PrivAgent's effectiveness in evading the existing guardrail defense and its helpfulness in enabling better safety alignment. Finally, we validate our customized designs through a detailed ablation study. We release our code here https://github.com/rucnyz/RedAgent.
Abstract（参考訳）: 近年の研究では、LSMには深刻なプライバシー漏洩の懸念があり、LSMは慎重に構築された敵のプロンプトの下で私的情報を出力することを騙される可能性があることが判明している。これらのリスクには、システムプロンプトの漏洩、個人識別可能な情報、トレーニングデータ、モデルパラメータなどが含まれる。プライバシー漏洩に対する既存のレッドチーム方式のアプローチは、人間に敵のプロンプトを作らせている。システムプロンプト抽出にはいくつかの自動化手法が提案されているが、より深刻なリスク(例えば、トレーニングデータ抽出)に適用することはできず、システムプロンプト抽出にも限界がある。本稿では,LLMプライバシー漏洩のための新しいブラックボックスレッドチームフレームワークであるPrivAgentを提案する。攻撃目標を統一した探索問題として異なるリスクを定式化する。我々のフレームワークは、異なるリスク下で異なるターゲットモデルに対する敵対的プロンプトを生成するために、強化学習を通じてオープンソースのLLMを攻撃エージェントとして訓練する。本稿では,攻撃剤に対して効果的かつきめ細かな報酬を与える新たな報酬関数を提案する。最後に,データの抽出とトレーニングを行うシステムに,私たちの一般的なフレームワークに適合するカスタマイズを導入する。広汎な評価により,PrivAgentは6つのLLMに対して,既存の自動手法よりも高い性能を示すことを示す。特に,本手法は,OpenAIのGPTストアにおける実世界のアプリケーションからシステムプロンプトを抽出する際の100%の成功率を達成する。また,PrivAgent がオープンソース LLM からトレーニングデータ抽出に有効であることを示す。さらに,PrivAgentが既存のガードレール防御を回避し,安全性向上に有効であることを示す。最後に、詳細なアブレーション研究を通じて、カスタマイズした設計を検証する。コードについては、https://github.com/rucnyz/RedAgent.comで公開しています。

関連論文リスト

Exploring Backdoor Attack and Defense for LLM-empowered Recommendations [15.098844020816552]
本稿では,RecSys(BadRec)に対するバックドアインジェクション・ポジショニング(Backdoor Injection Poisoning)と呼ばれる新たな攻撃フレームワークを提案する。 BadRecはアイテムのタイトルをトリガーで混乱させ、いくつかの偽のユーザーを使ってこれらのアイテムと対話し、トレーニングセットを効果的に毒化し、RecSysにバックドアを注入する。我々は,このようなセキュリティの脅威を軽減するため,ポゾン・スキャンナー(P-Scanner)と呼ばれるユニバーサル・ディフェンス戦略を提案する。
論文参考訳（メタデータ） (2025-04-15T13:37:38Z)
CheatAgent: Attacking LLM-Empowered Recommender Systems via LLM Agent [32.958798200220286]
大言語モデル(LLM)を利用したレコメンデーションシステム(RecSys)は、パーソナライズされたユーザーエクスペリエンスに大きな進歩をもたらした。 LLMの人間的な能力を活用して、CheatAgentと呼ばれる新たな攻撃フレームワークを提案する。提案手法は,入力修正の最小化による最大衝撃に対する挿入位置をまず同定する。
論文参考訳（メタデータ） (2025-04-13T05:31:37Z)
Unveiling Privacy Risks in LLM Agent Memory [40.26158509307175]
大規模言語モデル(LLM)エージェントは、様々な現実世界のアプリケーションでますます普及している。デモのためにメモリモジュールにプライベートユーザエージェントインタラクションを格納することで、意思決定を強化する。本稿では,メモリからプライベート情報を抽出するメモリ・エクストルーアクション・アタック(MEXTRA)を提案する。
論文参考訳（メタデータ） (2025-02-17T19:55:53Z)
Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors [15.861833242429228]
本稿では,RAGの知識データベースを対象としたデータ抽出攻撃について検討する。従来のインジェクションベース抽出攻撃はLLMの命令追従能力に大きく依存していた。筆者らは, LLM内のバックドアを作成するために, 微調整期間中に少量の有毒データを注入するバックドアRAGを提案する。
論文参考訳（メタデータ） (2024-11-03T22:27:40Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
Evaluating Large Language Model based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)は、攻撃者が個人プロファイルから様々な個人情報を正確に抽出するために誤用することができる。 LLMはそのような抽出において従来の方法より優れている。即時注射は、そのようなリスクを広範囲に軽減し、従来の対策より優れている。
論文参考訳（メタデータ） (2024-08-14T04:49:30Z)
MaPPing Your Model: Assessing the Impact of Adversarial Attacks on LLM-based Programming Assistants [14.947665219536708]
本稿では,攻撃者がプログラムタスクのプロンプトに少量のテキストを付加するMalicious Programming Prompt(MaPP)攻撃を紹介する。我々の迅速な戦略は、LSMが他の方法で正しいコードを書き続けながら脆弱性を追加する可能性があることを示しています。
論文参考訳（メタデータ） (2024-07-12T22:30:35Z)
BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents [26.057916556444333]
提案手法は,BadAgentというバックドア攻撃に対して脆弱であることを示す。提案手法は信頼性のあるデータを微調整した後でも極めて堅牢である。
論文参考訳（メタデータ） (2024-06-05T07:14:28Z)
Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。 7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文参考訳（メタデータ） (2024-04-24T23:39:58Z)
CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。 LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文参考訳（メタデータ） (2024-04-19T20:11:12Z)
The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文参考訳（メタデータ） (2024-02-23T18:35:15Z)
Learning to Poison Large Language Models During Instruction Tuning [12.521338629194503]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。 In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文参考訳（メタデータ） (2024-02-21T01:30:03Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文参考訳（メタデータ） (2023-11-02T06:13:36Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。