論文の概要: Bayesian Inference of Training Dataset Membership
- arxiv url: http://arxiv.org/abs/2506.00701v1
- Date: Sat, 31 May 2025 20:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.491831
- Title: Bayesian Inference of Training Dataset Membership
- Title(参考訳): トレーニングデータセットメンバーシップのベイズ推定
- Authors: Yongchao Huang,
- Abstract要約: 本稿では,メンバーシップ推論のための効率よく解釈可能なベイズ推論手法を提案する。
予測誤差、信頼度(エントロピー)、大きさ、データセット統計などのポストホックな指標を訓練されたMLモデルから分析することにより、広範囲なモデルトレーニングを必要とせずに、メンバーシップの後方確率を計算する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Determining whether a dataset was part of a machine learning model's training data pool can reveal privacy vulnerabilities, a challenge often addressed through membership inference attacks (MIAs). Traditional MIAs typically require access to model internals or rely on computationally intensive shadow models. This paper proposes an efficient, interpretable and principled Bayesian inference method for membership inference. By analyzing post-hoc metrics such as prediction error, confidence (entropy), perturbation magnitude, and dataset statistics from a trained ML model, our approach computes posterior probabilities of membership without requiring extensive model training. Experimental results on synthetic datasets demonstrate the method's effectiveness in distinguishing member from non-member datasets. Beyond membership inference, this method can also detect distribution shifts, offering a practical and interpretable alternative to existing approaches.
- Abstract(参考訳): データセットが機械学習モデルのトレーニングデータプールの一部であったかどうかを判断すると、プライバシの脆弱性が明らかになる可能性がある。
従来のMIAは一般にモデル内部へのアクセスを必要とするか、あるいは計算集約的なシャドウモデルに依存している。
本稿では,メンバーシップ推論のための効率よく解釈可能なベイズ推論手法を提案する。
予測誤差、信頼度(エントロピー)、摂動大きさ、データセット統計などのポストホック後の指標を訓練されたMLモデルから分析することにより、広範囲なモデルトレーニングを必要とせずに、会員シップの後方確率を計算する。
合成データセットに対する実験結果は、メンバーを非メンバーデータセットと区別する手法の有効性を示す。
メンバーシップ推論以外にも、この手法は分布シフトを検出でき、既存のアプローチに代わる実用的で解釈可能な代替手段を提供する。
関連論文リスト
- Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Self-Comparison for Dataset-Level Membership Inference in Large (Vision-)Language Models [73.94175015918059]
本稿では,自己比較に基づくデータセットレベルのメンバシップ推定手法を提案する。
本手法では, 同一分布における地中構造データや非構造データへのアクセスは不要である。
論文 参考訳(メタデータ) (2024-10-16T23:05:59Z) - Bayesian Estimation and Tuning-Free Rank Detection for Probability Mass Function Tensors [17.640500920466984]
本稿では,関節のPMFを推定し,そのランクを観測データから自動的に推定する新しい枠組みを提案する。
我々は、様々なモデルパラメータの後方分布を近似するために、変分推論(VI)に基づく決定論的解を導出し、さらに、変分推論(SVI)を利用して、VVIベースのアプローチのスケーラブルバージョンを開発する。
合成データと実映画レコメンデーションデータの両方を含む実験は、推定精度、自動ランク検出、計算効率の点で、VVIおよびSVIベースの手法の利点を示している。
論文 参考訳(メタデータ) (2024-10-08T20:07:49Z) - ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods [56.073335779595475]
本稿ではReCaLL(Relative Conditional Log-Likelihood)を提案する。
実験の結果,非メンバープレフィックスの条件付きメンバーデータは,非メンバーデータと比較してログライクな傾向が著しく低下することがわかった。
我々は総合的な実験を行い、ReCaLLがWikiMIAデータセット上で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-06-23T00:23:13Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - Can Membership Inferencing be Refuted? [31.31060116447964]
本研究では,実際に会員推論攻撃の信頼性について検討する。
モデルオーナは,データポイント$x$のメンバシップ推論テストの結果に対して,検証の証明を構築することで,妥当に反証できることを示す。
本研究の結果は,実際に会員推論攻撃がもたらす影響を再評価するものである。
論文 参考訳(メタデータ) (2023-03-07T04:36:35Z) - Robustness of Machine Learning Models Beyond Adversarial Attacks [0.0]
本稿では,MLモデルのロバスト性を決定する上で,敵対的ロバスト性や近縁なメトリクスが必ずしも有効な指標ではないことを示す。
アプリケーション毎に個別に入力データの摂動をモデル化するフレキシブルなアプローチを提案する。
これは、現実の摂動が予測を変える可能性を計算する確率論的アプローチと組み合わせられる。
論文 参考訳(メタデータ) (2022-04-21T12:09:49Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。