論文の概要: Explanations Leak: Membership Inference with Differential Privacy and Active Learning Defense
- arxiv url: http://arxiv.org/abs/2602.03611v1
- Date: Tue, 03 Feb 2026 15:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.525208
- Title: Explanations Leak: Membership Inference with Differential Privacy and Active Learning Defense
- Title(参考訳): 説明リーク: 差分プライバシーとアクティブ・ラーニング・ディフェンスによるメンバーシップ推論
- Authors: Fatima Ezzeddine, Osama Zammar, Silvia Giordano, Omran Ayoub,
- Abstract要約: 対物的説明(CF)は、透明性を改善するために機械学習・アズ・ア・サービス(ML)システムに統合されつつある。
我々は、メンバシップ推論攻撃(MIA)を強化することにより、CFがMLの攻撃面をどのように拡張するかという問題に焦点をあてる。
本稿では,DPとアクティブラーニング(AL)を統合した防衛フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.5249805590164901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterfactual explanations (CFs) are increasingly integrated into Machine Learning as a Service (MLaaS) systems to improve transparency; however, ML models deployed via APIs are already vulnerable to privacy attacks such as membership inference and model extraction, and the impact of explanations on this threat landscape remains insufficiently understood. In this work, we focus on the problem of how CFs expand the attack surface of MLaaS by strengthening membership inference attacks (MIAs), and on the need to design defense mechanisms that mitigate this emerging risk without undermining utility and explainability. First, we systematically analyze how exposing CFs through query-based APIs enables more effective shadow-based MIAs. Second, we propose a defense framework that integrates Differential Privacy (DP) with Active Learning (AL) to jointly reduce memorization and limit effective training data exposure. Finally, we conduct an extensive empirical evaluation to characterize the three-way trade-off between privacy leakage, predictive performance, and explanation quality. Our findings highlight the need to carefully balance transparency, utility, and privacy in the responsible deployment of explainable MLaaS systems.
- Abstract(参考訳): しかし、API経由でデプロイされるMLモデルは、メンバシップ推論やモデル抽出といったプライバシ攻撃に対してすでに脆弱であり、この脅威の状況に対する説明の影響は、まだ十分に理解されていない。
本研究では,メンバシップ推論攻撃(MIA)を強化することで,CFがMLaaSの攻撃面をどのように拡張するかという課題に着目する。
まず、クエリベースのAPIを通してCFを公開することで、より効果的なシャドウベースのMIAを実現する方法について体系的に分析する。
第2に,差分プライバシー(DP)とアクティブラーニング(AL)を統合した防衛フレームワークを提案する。
最後に,プライバシリーク,予測性能,説明品質の3方向トレードオフを特徴付ける実験的な評価を行った。
私たちの調査結果は、説明可能なMLaaSシステムの責任あるデプロイにおいて、透明性、ユーティリティ、プライバシを慎重にバランスさせることの必要性を強調しています。
関連論文リスト
- AttenMIA: LLM Membership Inference Attack through Attention Signals [8.170623979629953]
我々は,変圧器モデル内部の自己注意パターンを利用してメンバシップを推定する新しいMIAフレームワークであるAttenMIAを紹介する。
注意に基づく特徴は、特に重要な低偽陽性尺度の下で、一貫してベースラインを上回ります。
また,データ抽出フレームワークにおける他のメンバシップ推論攻撃を置き換えるためにAttenMIAを用いることで,技術状況よりも優れたデータ抽出攻撃を訓練できることを示す。
論文 参考訳(メタデータ) (2026-01-26T03:45:56Z) - ICLShield: Exploring and Mitigating In-Context Learning Backdoor Attacks [61.06621533874629]
In-context Learning (ICL)は、大規模言語モデル(LLM)において顕著な成功を収めた。
本稿では,LLMがタスク関連潜伏概念とバックドア関連潜伏概念の両方を同時に学習する,という二重学習仮説を初めて提案する。
そこで本研究では,概念選好比を動的に調整する防衛機構であるICLShieldを提案する。
論文 参考訳(メタデータ) (2025-07-02T03:09:20Z) - When Better Features Mean Greater Risks: The Performance-Privacy Trade-Off in Contrastive Learning [9.660010886245155]
本稿では,エンコーダモデルを対象としたMIA攻撃によるプライバシの脅威を系統的に検討する。
本稿では,Lp-Norm Likelihood Attack (LpLA) と呼ばれる特徴ベクトルのpノルムに基づく新しいメンバシップ推論攻撃法を提案する。
論文 参考訳(メタデータ) (2025-06-06T05:03:29Z) - On the interplay of Explainability, Privacy and Predictive Performance with Explanation-assisted Model Extraction [2.654271808710367]
差分プライバシー(DP)を利用する場合のモデル性能、プライバシ、説明可能性のトレードオフについて検討する。
モデル抽出(MEA)攻撃を緩和するための2つのDP戦略を評価する。
論文 参考訳(メタデータ) (2025-05-13T15:27:06Z) - Knowledge Distillation-Based Model Extraction Attack using GAN-based Private Counterfactual Explanations [1.6576983459630268]
本稿では,ML プラットフォーム内で MEA を実行する上で,モデル説明,特に非現実的説明をどのように活用できるかを検討することに注力する。
本稿では,代替モデルの抽出効率を高めるため,知識蒸留(KD)に基づくMEAの新しいアプローチを提案する。
また,差分プライバシー(DP)の有効性を緩和戦略として評価した。
論文 参考訳(メタデータ) (2024-04-04T10:28:55Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。