論文の概要: PIG: Privacy Jailbreak Attack on LLMs via Gradient-based Iterative In-Context Optimization
- arxiv url: http://arxiv.org/abs/2505.09921v2
- Date: Fri, 16 May 2025 09:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 12:32:17.913224
- Title: PIG: Privacy Jailbreak Attack on LLMs via Gradient-based Iterative In-Context Optimization
- Title(参考訳): PIG: グラディエントベースの反復的インコンテキスト最適化によるLCMのプライバシ・ジェイルブレイク攻撃
- Authors: Yidan Wang, Yanan Cao, Yubing Ren, Fang Fang, Zheng Lin, Binxing Fang,
- Abstract要約: PIG(Personally Identible Information)を対象とする新しいフレームワークを提案する(PII)。
PIGはプライバシクエリのPIIエンティティとそのタイプを特定し、コンテキスト内学習を使用してプライバシコンテキストを構築し、PIIをターゲットとする3つのグラデーションベースの戦略を反復的に更新する。
2つのプライバシー関連データセットを用いてPIGおよび既存のジェイルブレイク手法を評価する。
- 参考スコア(独自算出の注目度): 22.20191563383239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel in various domains but pose inherent privacy risks. Existing methods to evaluate privacy leakage in LLMs often use memorized prefixes or simple instructions to extract data, both of which well-alignment models can easily block. Meanwhile, Jailbreak attacks bypass LLM safety mechanisms to generate harmful content, but their role in privacy scenarios remains underexplored. In this paper, we examine the effectiveness of jailbreak attacks in extracting sensitive information, bridging privacy leakage and jailbreak attacks in LLMs. Moreover, we propose PIG, a novel framework targeting Personally Identifiable Information (PII) and addressing the limitations of current jailbreak methods. Specifically, PIG identifies PII entities and their types in privacy queries, uses in-context learning to build a privacy context, and iteratively updates it with three gradient-based strategies to elicit target PII. We evaluate PIG and existing jailbreak methods using two privacy-related datasets. Experiments on four white-box and two black-box LLMs show that PIG outperforms baseline methods and achieves state-of-the-art (SoTA) results. The results underscore significant privacy risks in LLMs, emphasizing the need for stronger safeguards. Our code is availble at https://github.com/redwyd/PrivacyJailbreak.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域で優れているが、固有のプライバシーリスクを生じさせる。
LLMの既存のプライバシー漏洩評価手法では、記憶されたプレフィックスや単純な命令を使ってデータを抽出することがある。
一方、ジェイルブレイク攻撃はLLMの安全メカニズムをバイパスして有害なコンテンツを生成するが、プライバシシナリオにおける彼らの役割は未解明のままである。
本稿では,LLMにおける機密情報抽出,プライバシー漏洩,およびジェイルブレイク攻撃に対するジェイルブレイク攻撃の有効性について検討する。
さらに,PII(Personally Identible Information)を対象とする新しいフレームワークであるPIGを提案し,現在のジェイルブレイク手法の限界に対処する。
具体的には、プライバシクエリにおけるPIIエンティティとそのタイプを特定し、コンテキスト内学習を使用してプライバシコンテキストを構築し、PIIをターゲットとする3つのグラデーションベースの戦略を反復的に更新する。
2つのプライバシー関連データセットを用いてPIGおよび既存のジェイルブレイク手法を評価する。
4つのホワイトボックスと2つのブラックボックスのLCM実験により、PIGはベースライン法より優れ、SoTA(State-of-the-art)の結果が得られた。
その結果、LSMの重大なプライバシーリスクを浮き彫りにし、より強力な保護の必要性を強調した。
私たちのコードはhttps://github.com/redwyd/PrivacyJailbreak.comで利用可能です。
関連論文リスト
- Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary [2.4329261266984346]
LLM(Large Language Models)は、有用で安全なコンテンツを生成するように設計されている。
一般的にジェイルブレイクと呼ばれる 敵の攻撃は 安全プロトコルをバイパスできる
LLMのプリフィル機能を利用した新しいジェイルブレイク攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-04-28T07:38:43Z) - Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。
LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-16T11:43:39Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
本稿では,有害なコンテンツを生成するために,大規模言語モデル(LLM)を誘導する新しいジェイルブレイク手法を提案する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
本稿では,SIJ に対抗するためのセルフリマインダーキー (Self-Reminder-Key) という簡単な防御手法を提案し,その有効性を実証する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models [14.571852591904092]
主要な安全策の1つは、リリース前にジェイルブレイクで大規模言語モデルを積極的にテストすることである。
我々は,人間の世代スタイルでジェイルブレイクを発生させるための,新しい直感的かつ直感的な戦略を提案する。
我々の異なる役割のシステムは、この知識グラフを利用して新しいジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2024-02-05T18:54:43Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。