論文の概要: DeepLeak: Privacy Enhancing Hardening of Model Explanations Against Membership Leakage
- arxiv url: http://arxiv.org/abs/2601.03429v1
- Date: Tue, 06 Jan 2026 21:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.077953
- Title: DeepLeak: Privacy Enhancing Hardening of Model Explanations Against Membership Leakage
- Title(参考訳): DeepLeak: メンバーシップリークに対するモデル説明の強化を促進するプライバシ
- Authors: Firas Ben Hmida, Zain Sbeih, Philemon Hailemariam, Birhanu Eshete,
- Abstract要約: DeepLeakは、ポストホックな説明手法でプライバシーリスクを監査し緩和するシステムである。
デフォルト設定は、以前報告されたよりも74.9%多いメンバーシップ情報をリークする可能性がある。
我々の軽減策は、平均で3.3%のユーティリティ損失しかなく、リークを最大95%(最小46.5%)削減した。
- 参考スコア(独自算出の注目度): 1.096626056612224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) explainability is central to algorithmic transparency in high-stakes settings such as predictive diagnostics and loan approval. However, these same domains require rigorous privacy guaranties, creating tension between interpretability and privacy. Although prior work has shown that explanation methods can leak membership information, practitioners still lack systematic guidance on selecting or deploying explanation techniques that balance transparency with privacy. We present DeepLeak, a system to audit and mitigate privacy risks in post-hoc explanation methods. DeepLeak advances the state-of-the-art in three ways: (1) comprehensive leakage profiling: we develop a stronger explanation-aware membership inference attack (MIA) to quantify how much representative explanation methods leak membership information under default configurations; (2) lightweight hardening strategies: we introduce practical, model-agnostic mitigations, including sensitivity-calibrated noise, attribution clipping, and masking, that substantially reduce membership leakage while preserving explanation utility; and (3) root-cause analysis: through controlled experiments, we pinpoint algorithmic properties (e.g., attribution sparsity and sensitivity) that drive leakage. Evaluating 15 explanation techniques across four families on image benchmarks, DeepLeak shows that default settings can leak up to 74.9% more membership information than previously reported. Our mitigations cut leakage by up to 95% (minimum 46.5%) with only <=3.3% utility loss on average. DeepLeak offers a systematic, reproducible path to safer explainability in privacy-sensitive ML.
- Abstract(参考訳): 機械学習(ML)の説明容易性は、予測診断やローン承認といったハイテイクな設定において、アルゴリズムによる透明性の中心である。
しかし、これらのドメインは厳格なプライバシー保証を必要とし、解釈可能性とプライバシーの間に緊張を生じさせる。
以前の研究では、説明手法がメンバーシップ情報を漏洩させる可能性があることが示されているが、透明性とプライバシのバランスをとる説明手法の選択や配置に関する体系的なガイダンスはいまだに欠けている。
本稿では,ポストホックな説明手法におけるプライバシーリスクを監査・緩和するシステムであるDeepLeakを紹介する。
DeepLeakは,(1)包括的リークプロファイリング(包括的リークプロファイリング):より強力な説明認識型メンバシップ推論攻撃(MIA)を開発し,デフォルト構成下でどの程度の代表的な説明手法がメンバーシップ情報を漏洩するかを定量化する。(2)軽量化戦略:感度校正ノイズ,帰属クリップ,マスキングを含む実用的,モデルに依存しない軽減策を導入する。
DeepLeakはイメージベンチマークで4つのファミリーにまたがる15の説明手法を評価し、デフォルト設定が以前報告されたより74.9%多いメンバーシップ情報をリークすることを示した。
当社の緩和により、リークは最大95%(最小46.5%)まで減少し、平均で1/3.3%の実用的損失しか得られなかった。
DeepLeakは、プライバシに敏感なMLにおける説明可能性を確保するために、システマティックで再現可能なパスを提供する。
関連論文リスト
- DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。
本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文 参考訳(メタデータ) (2025-04-28T01:16:27Z) - PrivacyScalpel: Enhancing LLM Privacy via Interpretable Feature Intervention with Sparse Autoencoders [8.483679748399037]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示したが、個人識別情報(PII)を記憶・漏洩することによりプライバシーリスクを生じさせる。
差分プライバシーやニューロンレベルの介入のような既存の緩和戦略は、しばしばモデルユーティリティを劣化させたり、リークを効果的に防いだりしない。
性能を維持しながらPIIリークを識別・緩和するために解釈可能性技術を活用する,新たなプライバシ保護フレームワークであるPrivacyScalpelを紹介する。
論文 参考訳(メタデータ) (2025-03-14T09:31:01Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Analyzing Leakage of Personally Identifiable Information in Language
Models [13.467340359030855]
言語モデル (LM) は, 文レベルのメンバシップ推論と再構築攻撃を通じて, トレーニングデータに関する情報を漏らすことが示されている。
スクレイビング技術は減少するが、PII漏れのリスクを防止しない。
ユーザーレベルのプライバシーを保証し、PIIの開示を防止するために設計された、差分プライバシーのようなアルゴリズムによる防御の程度は不明確である。
論文 参考訳(メタデータ) (2023-02-01T16:04:48Z) - Is Vertical Logistic Regression Privacy-Preserving? A Comprehensive
Privacy Analysis and Beyond [57.10914865054868]
垂直ロジスティック回帰(VLR)をミニバッチ降下勾配で訓練した。
我々は、オープンソースのフェデレーション学習フレームワークのクラスにおいて、VLRの包括的で厳密なプライバシー分析を提供する。
論文 参考訳(メタデータ) (2022-07-19T05:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。