論文の概要: Retrieval-Confused Generation is a Good Defender for Privacy Violation Attack of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.19889v1
- Date: Tue, 24 Jun 2025 07:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.477988
- Title: Retrieval-Confused Generation is a Good Defender for Privacy Violation Attack of Large Language Models
- Title(参考訳): Retrieval-Confused Generationは、大規模言語モデルのプライバシ違反攻撃のための優れたディフェンダーである
- Authors: Wanli Peng, Xin Chen, Hang Fu, XinYu He, Xue Yiming, Juan Wen,
- Abstract要約: プライバシー侵害攻撃(PVA)は、Staabらによって明らかにされ、深刻なプライバシー問題を引き起こしている。
既存のディフェンス方式は主に大きな言語モデル(LLM)を利用して入力クエリを匿名化している。
本稿では,PVAを効率よく,かつ隠蔽的に防御できるLLMの検索強調生成(RCG)に基づく新しい防衛パラダイムを提案する。
- 参考スコア(独自算出の注目度): 9.551704901720726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have made a profound impact on our society and also raised new security concerns. Particularly, due to the remarkable inference ability of LLMs, the privacy violation attack (PVA), revealed by Staab et al., introduces serious personal privacy issues. Existing defense methods mainly leverage LLMs to anonymize the input query, which requires costly inference time and cannot gain satisfactory defense performance. Moreover, directly rejecting the PVA query seems like an effective defense method, while the defense method is exposed, promoting the evolution of PVA. In this paper, we propose a novel defense paradigm based on retrieval-confused generation (RCG) of LLMs, which can efficiently and covertly defend the PVA. We first design a paraphrasing prompt to induce the LLM to rewrite the "user comments" of the attack query to construct a disturbed database. Then, we propose the most irrelevant retrieval strategy to retrieve the desired user data from the disturbed database. Finally, the "data comments" are replaced with the retrieved user data to form a defended query, leading to responding to the adversary with some wrong personal attributes, i.e., the attack fails. Extensive experiments are conducted on two datasets and eight popular LLMs to comprehensively evaluate the feasibility and the superiority of the proposed defense method.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は,我々の社会に大きな影響を与え,新たなセキュリティ上の懸念を提起している。
特に、LLMの顕著な推論能力のため、Staabらによって明らかにされたプライバシー侵害攻撃(PVA)は、深刻なプライバシー問題を引き起こす。
既存の防御手法は主にLSMを利用して入力クエリを匿名化するが、これはコストのかかる推論時間が必要であり、良好な防御性能を得ることができない。
さらに、PVAクエリを直接拒否することは効果的な防御方法のように見えるが、防御方法が露出し、PVAの進化が促進される。
本稿では, PVA を効率よく, 隠蔽的に防御できる LLM の検索畳み込み生成(RCG)に基づく, 新たな防衛パラダイムを提案する。
まず,攻撃クエリの "ユーザコメント" を書き換えて,乱れたデータベースを構築するために LLM を誘導する言い換えプロンプトを設計する。
そして,最も無関係な検索手法を提案し,乱れたデータベースから所望のユーザデータを検索する。
最後に、"データコメント"は、取得したユーザデータに置き換えられて、防御されたクエリを形成し、不正な個人属性、すなわち攻撃が失敗する敵に応答する。
提案手法の有効性と優位性を総合的に評価するために,2つのデータセットと8つのLLMを用いて大規模な実験を行った。
関連論文リスト
- SOFT: Selective Data Obfuscation for Protecting LLM Fine-tuning against Membership Inference Attacks [17.77094760401298]
メンバーシップ推論攻撃(MIA)に対する微調整大言語モデルの脆弱性について検討する。
プライバシー保護とプライバシー保護のバランスをとるために,影響のあるデータ選択を調整可能なパラメータで活用することで,プライバシーの漏洩を緩和する新しい防衛手法であるSOFTを提案する。
論文 参考訳(メタデータ) (2025-06-12T07:23:56Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - Information Leakage from Embedding in Large Language Models [5.475800773759642]
本研究では,入力再構成攻撃によるプライバシー侵害の可能性を検討することを目的とする。
まず,モデルの隠れ状態からオリジナルテキストを再構築する2つの基本手法を提案する。
次に、トランスフォーマーをベースとしたEmbed Parrotを提案し、深層への埋め込みから入力を再構築する。
論文 参考訳(メタデータ) (2024-05-20T09:52:31Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Concealing Sensitive Samples against Gradient Leakage in Federated
Learning [41.43099791763444]
Federated Learning(FL)は、クライアントが生のプライベートデータをサーバと共有する必要をなくし、ユーザのプライバシを高める分散学習パラダイムである。
近年の研究では、FLの脆弱性が逆攻撃のモデルとなり、敵は共有勾配情報に基づく盗聴によって個人データを再構築している。
我々は,機密データの勾配を隠蔽標本で曖昧にする,シンプルで効果的な防衛戦略を提案する。
論文 参考訳(メタデータ) (2022-09-13T04:19:35Z) - Defense Against Gradient Leakage Attacks via Learning to Obscure Data [48.67836599050032]
フェデレートラーニングは、効果的なプライバシー保護学習メカニズムと考えられている。
本稿では,不明瞭なデータに学習することで,クライアントのデータ保護のための新しい防御手法を提案する。
論文 参考訳(メタデータ) (2022-06-01T21:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。