論文の概要: Mitigating Membership Inference in Intermediate Representations via Layer-wise MIA-risk-aware DP-SGD
- arxiv url: http://arxiv.org/abs/2602.22611v1
- Date: Thu, 26 Feb 2026 04:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.527104
- Title: Mitigating Membership Inference in Intermediate Representations via Layer-wise MIA-risk-aware DP-SGD
- Title(参考訳): 層別MIAリスク対応DP-SGDによる中間表現におけるメンバシップ推論の緩和
- Authors: Jiayang Meng, Tao Huang, Chen Hou, Guolong Zheng, Hong Chen,
- Abstract要約: 本稿では、層間プライバシー保護をMIAリスクに比例して割り当てるレイヤワイドMIAリスク対応DP-SGD(LM-DP-SGD)を提案する。
同じプライバシー予算の下で、LM-DP-SGDは、実用性を維持しながらIRレベルのMIAリスクのピークを低減し、優れたプライバシーユーティリティトレードオフをもたらす。
- 参考スコア(独自算出の注目度): 26.493235454865538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Embedding-as-an-Interface (EaaI) settings, pre-trained models are queried for Intermediate Representations (IRs). The distributional properties of IRs can leak training-set membership signals, enabling Membership Inference Attacks (MIAs) whose strength varies across layers. Although Differentially Private Stochastic Gradient Descent (DP-SGD) mitigates such leakage, existing implementations employ per-example gradient clipping and a uniform, layer-agnostic noise multiplier, ignoring heterogeneous layer-wise MIA vulnerability. This paper introduces Layer-wise MIA-risk-aware DP-SGD (LM-DP-SGD), which adaptively allocates privacy protection across layers in proportion to their MIA risk. Specifically, LM-DP-SGD trains a shadow model on a public shadow dataset, extracts per-layer IRs from its train/test splits, and fits layer-specific MIA adversaries, using their attack error rates as MIA-risk estimates. Leveraging the cross-dataset transferability of MIAs, these estimates are then used to reweight each layer's contribution to the globally clipped gradient during private training, providing layer-appropriate protection under a fixed noise magnitude. We further establish theoretical guarantees on both privacy and convergence of LM-DP-SGD. Extensive experiments show that, under the same privacy budget, LM-DP-SGD reduces the peak IR-level MIA risk while preserving utility, yielding a superior privacy-utility trade-off.
- Abstract(参考訳): Embedding-as-an-Interface (EaaI)設定では、中間表現(IR)のために事前訓練されたモデルがクエリされる。
IRの分布特性はトレーニングセットのメンバシップシグナルを漏洩させ、層によって強度が変化するメンバーシップ推論攻撃(MIA)を可能にする。
DP-SGD(Fariially Private Stochastic Gradient Descent)はそのようなリークを緩和するが、既存の実装ではサンプルごとの勾配クリッピングと均一な層別ノイズ乗算器を採用しており、不均一な層別MIA脆弱性を無視している。
本稿では、層間プライバシー保護をMIAリスクに比例して適応的に割り当てるレイヤワイドMIAリスク対応DP-SGD(LM-DP-SGD)を提案する。
具体的には、LM-DP-SGDは、公開シャドウデータセット上でシャドウモデルをトレーニングし、トレイン/テスト分割から層間IRを抽出し、攻撃エラー率をMIAリスク推定として、層固有のMIA敵に適合させる。
MIAのクロスデータセット転送性を活用して、これらの推定値は、プライベートトレーニング中に各層が世界規模で切り裂かれた勾配への貢献を再重み付けし、固定ノイズマグニチュードの下で層に適切な保護を与える。
さらに、LM-DP-SGDのプライバシーと収束に関する理論的保証を確立する。
同じプライバシー予算の下で、LM-DP-SGDは実用性を維持しながらIRレベルのMIAリスクのピークを低減し、優れたプライバシーユーティリティトレードオフをもたらす。
関連論文リスト
- In-Context Probing for Membership Inference in Fine-Tuned Language Models [14.590625376049955]
メンバーシップ推論攻撃(MIA)は、微調整された大規模言語モデル(LLM)に重大なプライバシー上の脅威をもたらす
トレーニング力学の理論に基づく新しいMIAフレームワークであるICP-MIAを提案する。
ICP-MIAは、特に偽陽性率の低い場合、以前のブラックボックスMIAよりも著しく優れていた。
論文 参考訳(メタデータ) (2025-12-18T08:26:26Z) - Ensemble Privacy Defense for Knowledge-Intensive LLMs against Membership Inference Attacks [21.852575873751917]
推論攻撃は、プライバシーと機密ドメインへの信頼に深刻な脅威をもたらす。
我々は、新しいモデルに依存しない防衛フレームワーク、Ensemble Privacy Defense (EPD)を導入する。
EPDは、推理時間ベースラインと比較して、SFTで27.8%、RAGで526.3%のMIA成功を減少させる。
論文 参考訳(メタデータ) (2025-12-01T18:12:18Z) - Differential Privacy: Gradient Leakage Attacks in Federated Learning Environments [0.6850683267295249]
フェデレート・ラーニング(FL)は、センシティブなデータを共有せずに、協調的に機械学習モデルのトレーニングを可能にする。
Gradient Leakage Attacks (GLAs)は、共有モデルの更新からプライベート情報を公開することができる。
GLAに対する防衛手段としての差別化プライバシメカニズムの有効性について検討する。
論文 参考訳(メタデータ) (2025-10-27T23:33:21Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Bias-Aware Minimisation: Understanding and Mitigating Estimator Bias in
Private SGD [56.01810892677744]
DP-SGDにおいて,サンプルごとの勾配ノルムとプライベート勾配オラクルの推定バイアスの関連性を示す。
BAM(Bias-Aware Minimisation)を提案する。
論文 参考訳(メタデータ) (2023-08-23T09:20:41Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - FedLAP-DP: Federated Learning by Sharing Differentially Private Loss Approximations [53.268801169075836]
我々は,フェデレーション学習のための新しいプライバシ保護手法であるFedLAP-DPを提案する。
公式なプライバシー分析は、FedLAP-DPが典型的な勾配共有方式と同じプライバシーコストを発生させることを示している。
提案手法は, 通常の勾配共有法に比べて高速な収束速度を示す。
論文 参考訳(メタデータ) (2023-02-02T12:56:46Z) - Improving Differentially Private SGD via Randomly Sparsified Gradients [31.295035726077366]
ディファレンシャル・プライベート・グラデーション・オブザーバ(DP-SGD)は、厳密に定義されたプライバシー境界圧縮を提供するため、ディープラーニングにおいて広く採用されている。
本稿では,通信コストを向上し,プライバシ境界圧縮を強化するためのRSを提案する。
論文 参考訳(メタデータ) (2021-12-01T21:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。