論文の概要: Membership Inference Attacks from Causal Principles
- arxiv url: http://arxiv.org/abs/2602.02819v2
- Date: Wed, 04 Feb 2026 20:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 14:11:23.859662
- Title: Membership Inference Attacks from Causal Principles
- Title(参考訳): 因果原理による会員推測攻撃
- Authors: Mathieu Even, Clément Berenfeld, Linus Bleistein, Tudor Cebere, Julie Josse, Aurélien Bellet,
- Abstract要約: 我々は、MIA評価を因果推論問題とし、記憶をトレーニングセットにデータポイントを含む因果効果として定義する。
非漸近的整合性保証付きマルチラン・ワンラン・ゼロラン体制の実用的推定器を提案する。
- 参考スコア(独自算出の注目度): 24.370456956570873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Membership Inference Attacks (MIAs) are widely used to quantify training data memorization and assess privacy risks. Standard evaluation requires repeated retraining, which is computationally costly for large models. One-run methods (single training with randomized data inclusion) and zero-run methods (post hoc evaluation) are often used instead, though their statistical validity remains unclear. To address this gap, we frame MIA evaluation as a causal inference problem, defining memorization as the causal effect of including a data point in the training set. This novel formulation reveals and formalizes key sources of bias in existing protocols: one-run methods suffer from interference between jointly included points, while zero-run evaluations popular for LLMs are confounded by non-random membership assignment. We derive causal analogues of standard MIA metrics and propose practical estimators for multi-run, one-run, and zero-run regimes with non-asymptotic consistency guarantees. Experiments on real-world data show that our approach enables reliable memorization measurement even when retraining is impractical and under distribution shift, providing a principled foundation for privacy evaluation in modern AI systems.
- Abstract(参考訳): メンバーシップ推論攻撃(MIA)は、トレーニングデータの記憶を定量化し、プライバシーリスクを評価するために広く利用されている。
標準的な評価には反復的な再訓練が必要であり、大きなモデルでは計算コストがかかる。
単行法(ランダム化データを含む単行法)やゼロ行法(ポストホック評価)が用いられることが多いが、その統計的妥当性は定かではない。
このギャップに対処するために、私たちはMIA評価を因果推論問題とみなし、記憶をトレーニングセットにデータポイントを含む因果効果として定義する。
この新たな定式化は、既存のプロトコルにおける重要なバイアス源を明らかにし、定式化する: 1ラン法は、共同に含まれた点間の干渉に悩まされる一方、LLMで人気のあるゼロラン評価は、非ランダムなメンバシップ割り当てによって構成される。
我々は、標準MIA測定値の因果類似を導出し、非漸近的整合性保証付きマルチラン、ワンラン、ゼロランレジームに対する実用的な推定器を提案する。
実世界のデータを用いた実験では,リトレーニングが現実的でなく,分散シフト下であっても,信頼性の高い記憶測定が可能であり,現代のAIシステムにおけるプライバシ評価の原則的基盤を提供する。
関連論文リスト
- Empirical Likelihood-Based Fairness Auditing: Distribution-Free Certification and Flagging [18.71249153088185]
リシビズム予測や人事自動選択といった高度な応用における機械学習モデルは、しばしば体系的な性能格差を示す。
本稿では,モデル性能の相違に対する頑健な統計的尺度を構築するための実験的可能性ベース(EL)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-28T05:36:19Z) - Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - On Conformal Machine Unlearning [23.735173540590832]
共形予測(CP)に基づく機械アンラーニング(MU)の新しい定義を提案する。
本研究では,CP集合から忘れられたサンプルの頻度を定量化するコンフォメーション基準を定式化し,未学習の有効性を測定するための経験的指標を提案する。
論文 参考訳(メタデータ) (2025-08-05T09:24:09Z) - Rectifying Privacy and Efficacy Measurements in Machine Unlearning: A New Inference Attack Perspective [42.003102851493885]
本稿では,不正確な未学習手法の評価において重要なギャップに対処するため,RULI (Rectified Unlearning Evaluation Framework via Likelihood Inference)を提案する。
RULIは、未学習の有効性とプライバシリスクをサンプルごとの粒度で測定するために、二重目的攻撃を導入している。
既存の手法で過小評価されているプライバシーリスクを暴露し,最先端のアンラーニング手法の重大な脆弱性を明らかにした。
論文 参考訳(メタデータ) (2025-06-16T00:30:02Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。
これは私たちの最良の知識の一般的な評価の最初の定義です。
論文 参考訳(メタデータ) (2022-08-23T09:37:31Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。