論文の概要: LeakAgent: RL-based Red-teaming Agent for LLM Privacy Leakage
- arxiv url: http://arxiv.org/abs/2412.05734v2
- Date: Fri, 08 Aug 2025 09:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 14:17:28.963526
- Title: LeakAgent: RL-based Red-teaming Agent for LLM Privacy Leakage
- Title(参考訳): LeakAgent: LLMプライバシリークのためのRLベースのレッドチームエージェント
- Authors: Yuzhou Nie, Zhun Wang, Ye Yu, Xian Wu, Xuandong Zhao, Wenbo Guo, Dawn Song,
- Abstract要約: LeakAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。
我々のフレームワークは、敵のプロンプトを生成するための攻撃エージェントとして強化学習を通じてオープンソースのLLMを訓練する。
我々は,LeakAgentが既存のルールベースのデータ抽出手法と,システムリーク時の自動手法を著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 78.33839735526769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have discovered that large language models (LLM) may be ``fooled'' to output private information, including training data, system prompts, and personally identifiable information, under carefully crafted adversarial prompts. Existing red-teaming approaches for privacy leakage either rely on manual efforts or focus solely on system prompt extraction, making them ineffective for severe risks of training data leakage. We propose LeakAgent, a novel black-box red-teaming framework for LLM privacy leakage. Our framework trains an open-source LLM through reinforcement learning as the attack agent to generate adversarial prompts for both training data extraction and system prompt extraction. To achieve this, we propose a novel reward function to provide effective and fine-grained rewards and design novel mechanisms to balance exploration and exploitation during learning and enhance the diversity of adversarial prompts. Through extensive evaluations, we first show that LeakAgent significantly outperforms existing rule-based approaches in training data extraction and automated methods in system prompt leakage. We also demonstrate the effectiveness of LeakAgent in extracting system prompts from real-world applications in OpenAI's GPT Store. We further demonstrate LeakAgent's effectiveness in evading the existing guardrail defense and its helpfulness in enabling better safety alignment. Finally, we validate our customized designs through a detailed ablation study. We release our code here https://github.com/rucnyz/LeakAgent.
- Abstract(参考訳): 近年の研究では、大規模言語モデル(LLM)が、訓練データ、システムプロンプト、個人識別可能な情報を含むプライベート情報を、慎重に構築された敵のプロンプトの下で出力する「fooled」であることが発見されている。
既存のプライバシリークに対するレッドチームのアプローチは、手作業に依存するか、システムプロンプト抽出のみに重点を置いているため、データ漏洩をトレーニングする重大なリスクに対して効果がない。
LLMプライバシー漏洩のための新しいブラックボックスレッドチームフレームワークであるLeakAgentを提案する。
我々のフレームワークは、強化学習を通じてオープンソースのLCMを訓練し、トレーニングデータ抽出とシステムプロンプト抽出の両方の逆プロンプトを生成する。
そこで本研究では,学習中の探索と搾取のバランスを保ち,敵のプロンプトの多様性を高めるために,効果的できめ細かな報酬を提供する新しい報酬関数を提案する。
大規模な評価を通じて、LeakAgentは、既存のルールベースアプローチよりも、データ抽出のトレーニングや、システムにリークを誘導する自動化手法をはるかに上回っていることを示す。
また,OpenAIのGPTストアにおける実世界のアプリケーションからシステムプロンプトを抽出する際のLeakAgentの有効性を示す。
さらに,既存のガードレール防御の回避におけるLeakAgentの有効性と,より優れた安全アライメントを実現する上での有効性を示す。
最後に、詳細なアブレーション研究を通じて、カスタマイズした設計を検証する。
コードについては、https://github.com/rucnyz/LeakAgent.comで公開しています。
関連論文リスト
- Enhancing Jailbreak Attacks on LLMs via Persona Prompts [39.73624426612256]
Jailbreak攻撃は、有害なコンテンツを生成するよう誘導することで、大きな言語モデル(LLM)を活用することを目的としている。
以前のジェイルブレイクアプローチは、主に有害な意図を直接操作することに焦点を当てており、ペルソナのプロンプトの影響に限られた注意を払っている。
LLMの安全性機構をバイパスするペルソナを自動生成する遺伝的アルゴリズムに基づく手法を提案する。
論文 参考訳(メタデータ) (2025-07-28T12:03:22Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Exploring Backdoor Attack and Defense for LLM-empowered Recommendations [15.098844020816552]
本稿では,RecSys(BadRec)に対するバックドアインジェクション・ポジショニング(Backdoor Injection Poisoning)と呼ばれる新たな攻撃フレームワークを提案する。
BadRecはアイテムのタイトルをトリガーで混乱させ、いくつかの偽のユーザーを使ってこれらのアイテムと対話し、トレーニングセットを効果的に毒化し、RecSysにバックドアを注入する。
我々は,このようなセキュリティの脅威を軽減するため,ポゾン・スキャンナー(P-Scanner)と呼ばれるユニバーサル・ディフェンス戦略を提案する。
論文 参考訳(メタデータ) (2025-04-15T13:37:38Z) - CheatAgent: Attacking LLM-Empowered Recommender Systems via LLM Agent [32.958798200220286]
大言語モデル(LLM)を利用したレコメンデーションシステム(RecSys)は、パーソナライズされたユーザーエクスペリエンスに大きな進歩をもたらした。
LLMの人間的な能力を活用して、CheatAgentと呼ばれる新たな攻撃フレームワークを提案する。
提案手法は,入力修正の最小化による最大衝撃に対する挿入位置をまず同定する。
論文 参考訳(メタデータ) (2025-04-13T05:31:37Z) - Unveiling Privacy Risks in LLM Agent Memory [40.26158509307175]
大規模言語モデル(LLM)エージェントは、様々な現実世界のアプリケーションでますます普及している。
デモのためにメモリモジュールにプライベートユーザエージェントインタラクションを格納することで、意思決定を強化する。
本稿では,メモリからプライベート情報を抽出するメモリ・エクストルーアクション・アタック(MEXTRA)を提案する。
論文 参考訳(メタデータ) (2025-02-17T19:55:53Z) - Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors [15.861833242429228]
本稿では,RAGの知識データベースを対象としたデータ抽出攻撃について検討する。
従来のインジェクションベース抽出攻撃はLLMの命令追従能力に大きく依存していた。
筆者らは, LLM内のバックドアを作成するために, 微調整期間中に少量の有毒データを注入するバックドアRAGを提案する。
論文 参考訳(メタデータ) (2024-11-03T22:27:40Z) - Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Evaluating Large Language Model based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)は、攻撃者が個人プロファイルから様々な個人情報を正確に抽出するために誤用することができる。
LLMはそのような抽出において従来の方法より優れている。
即時注射は、そのようなリスクを広範囲に軽減し、従来の対策より優れている。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - MaPPing Your Model: Assessing the Impact of Adversarial Attacks on LLM-based Programming Assistants [14.947665219536708]
本稿では,攻撃者がプログラムタスクのプロンプトに少量のテキストを付加するMalicious Programming Prompt(MaPP)攻撃を紹介する。
我々の迅速な戦略は、LSMが他の方法で正しいコードを書き続けながら脆弱性を追加する可能性があることを示しています。
論文 参考訳(メタデータ) (2024-07-12T22:30:35Z) - BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents [26.057916556444333]
提案手法は,BadAgentというバックドア攻撃に対して脆弱であることを示す。
提案手法は信頼性のあるデータを微調整した後でも極めて堅牢である。
論文 参考訳(メタデータ) (2024-06-05T07:14:28Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Learning to Poison Large Language Models During Instruction Tuning [12.521338629194503]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。