論文の概要: The Tail Tells All: Estimating Model-Level Membership Inference Vulnerability Without Reference Models
- arxiv url: http://arxiv.org/abs/2510.19773v1
- Date: Wed, 22 Oct 2025 17:03:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.217839
- Title: The Tail Tells All: Estimating Model-Level Membership Inference Vulnerability Without Reference Models
- Title(参考訳): 基準モデルなしでモデルレベルメンバーシップ推論脆弱性を推定する
- Authors: Euodia Dodd, Nataša Krčo, Igor Shilov, Yves-Alexandre de Montjoye,
- Abstract要約: 本稿では,モデルレベルの脆弱性である低FPRにおけるTPRを,参照モデルを必要としないメンバシップ推論攻撃に推定するための新しいアプローチを提案する。
本手法は,RMIAなどの低コスト(参照モデル)攻撃と,他の分布差の測定値よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 8.453525669833853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Membership inference attacks (MIAs) have emerged as the standard tool for evaluating the privacy risks of AI models. However, state-of-the-art attacks require training numerous, often computationally expensive, reference models, limiting their practicality. We present a novel approach for estimating model-level vulnerability, the TPR at low FPR, to membership inference attacks without requiring reference models. Empirical analysis shows loss distributions to be asymmetric and heavy-tailed and suggests that most points at risk from MIAs have moved from the tail (high-loss region) to the head (low-loss region) of the distribution after training. We leverage this insight to propose a method to estimate model-level vulnerability from the training and testing distribution alone: using the absence of outliers from the high-loss region as a predictor of the risk. We evaluate our method, the TNR of a simple loss attack, across a wide range of architectures and datasets and show it to accurately estimate model-level vulnerability to the SOTA MIA attack (LiRA). We also show our method to outperform both low-cost (few reference models) attacks such as RMIA and other measures of distribution difference. We finally evaluate the use of non-linear functions to evaluate risk and show the approach to be promising to evaluate the risk in large-language models.
- Abstract(参考訳): AIモデルのプライバシリスクを評価する標準ツールとして、メンバシップ推論アタック(MIA)が登場している。
しかし、最先端の攻撃は、多くの訓練、しばしば計算に高価で参照モデルを必要とするため、実用性は制限される。
本稿では,モデルレベルの脆弱性である低FPRにおけるTPRを,参照モデルを必要としないメンバシップ推論攻撃に推定するための新しいアプローチを提案する。
経験的分析では、損失分布は非対称で重く、MIAからリスクのあるほとんどの点が訓練後に尾部(高損失領域)から頭部(低損失領域)に移動したことを示唆している。
この知見を利用して、トレーニングとテストのみからモデルレベルの脆弱性を推定する手法を提案する。
我々は,本手法,単純な損失攻撃のTNRを多種多様なアーキテクチャやデータセットにわたって評価し,モデルレベルの脆弱性をSOTA MIA攻撃(LiRA)に正確に推定することを示す。
また,RMIAなどの低コスト(参照モデル)攻撃と,他の分布差の測定値よりも優れていることを示す。
リスク評価のための非線形関数の利用を最終的に評価し、大規模言語モデルのリスク評価に期待できるアプローチを示す。
関連論文リスト
- Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - A hierarchical approach for assessing the vulnerability of tree-based classification models to membership inference attack [0.552480439325792]
機械学習モデルは、トレーニングデータの秘密プロパティを不注意に公開し、メンバシップ推論攻撃(MIA)に対して脆弱になる。
本稿では、脆弱な木に基づくモデルを効率的に同定するための2つの新しい補完的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-13T15:16:53Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Free Record-Level Privacy Risk Evaluation Through Artifact-Based Methods [6.902279764206365]
メンバーシップ推論攻撃(MIA)は機械学習モデルにおけるプライバシリスクを評価するために広く利用されている。
最先端の手法では、ターゲットモデルと同じアーキテクチャで数百のシャドウモデルをトレーニングする必要があります。
そこで本研究では,トレーニングプロセス中に自然に入手可能なアーティファクトを解析することにより,メンバシップ推論攻撃に最も脆弱なトレーニングサンプルを同定する手法を提案する。
論文 参考訳(メタデータ) (2024-11-08T18:04:41Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。