論文の概要: Ensemble Privacy Defense for Knowledge-Intensive LLMs against Membership Inference Attacks
- arxiv url: http://arxiv.org/abs/2512.03100v1
- Date: Mon, 01 Dec 2025 18:12:18 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:11:54.716774
- Title: Ensemble Privacy Defense for Knowledge-Intensive LLMs against Membership Inference Attacks
- Title(参考訳): 知識集約型LLMにおける会員推論攻撃に対するプライバシー保護の強化
- Authors: Haowei Fu, Bo Ni, Han Xu, Kunpeng Liu, Dan Lin, Tyler Derr,
- Abstract要約: 推論攻撃は、プライバシーと機密ドメインへの信頼に深刻な脅威をもたらす。
我々は、新しいモデルに依存しない防衛フレームワーク、Ensemble Privacy Defense (EPD)を導入する。
EPDは、推理時間ベースラインと比較して、SFTで27.8%、RAGで526.3%のMIA成功を減少させる。
- 参考スコア(独自算出の注目度): 21.852575873751917
- License:
- Abstract: Retrieval-Augmented Generation (RAG) and Supervised Finetuning (SFT) have become the predominant paradigms for equipping Large Language Models (LLMs) with external knowledge for diverse, knowledge-intensive tasks. However, while such knowledge injection improves performance, it also exposes new attack surfaces. Membership Inference Attacks (MIAs), which aim to determine whether a given data sample was included in a model's training set, pose serious threats to privacy and trust in sensitive domains. To this end, we first systematically evaluate the vulnerability of RAG- and SFT-based LLMs to various MIAs. Then, to address the privacy risk, we further introduce a novel, model-agnostic defense framework, Ensemble Privacy Defense (EPD), which aggregates and evaluates the outputs of a knowledge-injected LLM, a base LLM, and a dedicated judge model to enhance resistance against MIAs. Comprehensive experiments show that, on average, EPD reduces MIA success by up to 27.8\% for SFT and 526.3\% for RAG compared to inference-time baseline, while maintaining answer quality.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) と Supervised Finetuning (SFT) は、多種多様な知識集約タスクのための外部知識を備えた大規模言語モデル (LLM) を装備するための主要なパラダイムとなっている。
しかし、そのような知識注入によって性能が向上する一方で、新たな攻撃面も露出する。
モデルのトレーニングセットに与えられたデータサンプルが含まれているかどうかを判断することを目的としたメンバシップ推論攻撃(MIA)は、プライバシと機密ドメインへの信頼に深刻な脅威をもたらす。
そこで我々はまず,RAG-およびSFT-based LLMの脆弱性を様々なMIAに系統的に評価した。
プライバシリスクに対処するため,我々は,知識注入型LSM,ベースLSM,およびMIAに対する抵抗を強化する専用判定モデルの出力を集約し,評価する,新しいモデルに依存しない防衛フレームワークであるEnsemble Privacy Defense (EPD)を導入する。
総合的な実験により、SPDは平均してSFTが27.8\%、RAGが526.3\%、推論時ベースラインが526.3\%となり、回答の品質を維持していることがわかった。
関連論文リスト
- LLM4MEA: Data-free Model Extraction Attacks on Sequential Recommenders via Large Language Models [50.794651919028965]
近年の研究では、モデル抽出攻撃(MEA)に対するシーケンシャルレコメンデータシステムの脆弱性が実証されている。
事前のMEAにおけるブラックボックス攻撃は、データ選択のランダムサンプリングによるレコメンデータシステムの脆弱性を明らかにするのに効果がない。
LLM4MEAは,Large Language Models (LLMs) を人間のようなランク付けとして活用してデータを生成する新しいモデル抽出法である。
論文 参考訳(メタデータ) (2025-07-22T19:20:23Z) - ICLShield: Exploring and Mitigating In-Context Learning Backdoor Attacks [61.06621533874629]
In-context Learning (ICL)は、大規模言語モデル(LLM)において顕著な成功を収めた。
本稿では,LLMがタスク関連潜伏概念とバックドア関連潜伏概念の両方を同時に学習する,という二重学習仮説を初めて提案する。
そこで本研究では,概念選好比を動的に調整する防衛機構であるICLShieldを提案する。
論文 参考訳(メタデータ) (2025-07-02T03:09:20Z) - SOFT: Selective Data Obfuscation for Protecting LLM Fine-tuning against Membership Inference Attacks [17.77094760401298]
メンバーシップ推論攻撃(MIA)に対する微調整大言語モデルの脆弱性について検討する。
プライバシー保護とプライバシー保護のバランスをとるために,影響のあるデータ選択を調整可能なパラメータで活用することで,プライバシーの漏洩を緩和する新しい防衛手法であるSOFTを提案する。
論文 参考訳(メタデータ) (2025-06-12T07:23:56Z) - Exploring the limits of strong membership inference attacks on large language models [70.49900359876595]
最先端メンバーシップ推論攻撃 (MIA) は通常、多くの参照モデルを訓練する必要がある。
事前訓練された言語モデルでは強力なMIAが成功するが,その有効性は限られている。
論文 参考訳(メタデータ) (2025-05-24T16:23:43Z) - Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks [0.0]
大規模言語モデル (LLM) は、機械生成テキストの品質を評価するための評価器 (LLM-as-a-Judge) としてますます採用されている。
本稿では,LPM-as-a-Judgeアーキテクチャの早期注入攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2025-05-19T16:51:12Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - CALoR: Towards Comprehensive Model Inversion Defense [43.2642796582236]
Model Inversion Attacks (MIAs)は、プライバシに敏感なトレーニングデータを、リリースされた機械学習モデルにエンコードされた知識から回復することを目的としている。
MIA分野の最近の進歩は、複数のシナリオにおける攻撃性能を大幅に向上させた。
信頼性適応と低ランク圧縮を統合した堅牢な防御機構を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:44:01Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - MIA-BAD: An Approach for Enhancing Membership Inference Attack and its
Mitigation with Federated Learning [6.510488168434277]
メンバシップ推論攻撃(MIA)は、機械学習(ML)モデルのプライバシを妥協するための一般的なパラダイムである。
バッチ・ワイズ・アサート・データセット(MIA-BAD)を用いた強化されたメンバーシップ推論攻撃を提案する。
FLを用いたMLモデルのトレーニング方法を示すとともに,提案したMIA-BADアプローチによる脅威をFLアプローチで緩和する方法について検討する。
論文 参考訳(メタデータ) (2023-11-28T06:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。