論文の概要: Revisiting the LiRA Membership Inference Attack Under Realistic Assumptions
- arxiv url: http://arxiv.org/abs/2603.07567v1
- Date: Sun, 08 Mar 2026 10:03:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.814888
- Title: Revisiting the LiRA Membership Inference Attack Under Realistic Assumptions
- Title(参考訳): 現実的前提下におけるLiRAメンバーシップ推論攻撃の再検討
- Authors: Najeeb Jebreel, Mona Khalil, David Sánchez, Josep Domingo-Ferrer,
- Abstract要約: Likelihood-Ratio Attack (LiRA) は、十分なシャドウモデルが利用可能である場合、技術の現状として広く見なされている。
我々は、アンチオーバーフィッティング(AOF)とトランスファーラーニング(TL)を用いてモデルを訓練する現実的なプロトコルの下で、LiRAを再評価する。
その結果,AOFはLiRAを著しく低下させる一方で,モデル精度を向上しながら攻撃効率を低下させることがわかった。
- 参考スコア(独自算出の注目度): 3.249311490276307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Membership inference attacks (MIAs) have become the standard tool for evaluating privacy leakage in machine learning (ML). Among them, the Likelihood-Ratio Attack (LiRA) is widely regarded as the state of the art when sufficient shadow models are available. However, prior evaluations have often overstated the effectiveness of LiRA by attacking models overconfident on their training samples, calibrating thresholds on target data, assuming balanced membership priors, and/or overlooking attack reproducibility. We re-evaluate LiRA under a realistic protocol that (i) trains models using anti-overfitting (AOF) and transfer learning (TL), when applicable, to reduce overconfidence as in production models; (ii) calibrates decision thresholds using shadow models and data rather than target data; (iii) measures positive predictive value (PPV, or precision) under shadow-based thresholds and skewed membership priors (pi <= 10%); and (iv) quantifies per-sample membership reproducibility across different seeds and training variations. We find that AOF significantly weakens LiRA, while TL further reduces attack effectiveness while improving model accuracy. Under shadow-based thresholds and skewed priors, LiRA's PPV often drops substantially, especially under AOF or AOF+TL. We also find that thresholded vulnerable sets at extremely low FPR show poor reproducibility across runs, while likelihood-ratio rankings are more stable. These results suggest that LiRA, and likely weaker MIAs, are less effective than previously suggested under realistic conditions, and that reliable privacy auditing requires evaluation protocols that reflect practical training practices, feasible attacker assumptions, and reproducibility considerations. Code is available at https://github.com/najeebjebreel/lira_analysis.
- Abstract(参考訳): メンバーシップ推論攻撃(MIA)は、機械学習(ML)におけるプライバシー漏洩を評価する標準ツールとなっている。
その中でも、LiRA(Likelihood-Ratio Attack)は、十分なシャドウモデルが利用可能である場合、最先端の攻撃と見なされている。
しかし, 事前評価では, トレーニングサンプルに対する過信モデル攻撃, 目標データに対するしきい値の校正, バランスの取れたメンバーシップ事前の仮定, および/または攻撃再現性を見越してLiRAの有効性を過大評価している。
現実的なプロトコルでLiRAを再評価する
一 反オーバーフィッティング(AOF)及びトランスファーラーニング(TL)を用いたモデルに適合する場合は、生産モデルのように過信を減らすよう訓練すること。
二 目標データではなく、影モデル及びデータを用いて決定閾値を校正する。
三 正の予測値(PPV又は精度)をシャドーベース閾値及び歪んだ会員先(pi<=10%)で測定すること。
(iv)異なる種種間でのサンプル単位の再現性と訓練のバリエーションを定量化する。
AOFはLiRAを著しく低下させる一方、TLはモデル精度を向上しながら攻撃効率をさらに低下させる。
シャドーベースしきい値と歪んだ先行値の下では、LiRAのPVは特にAOFまたはAOF+TLの下では著しく低下する。
また、極端に低いFPRの閾値の弱いセットは、実行中に再現性が低いが、確率比のランクはより安定している。
これらの結果は、LiRA(おそらく弱いMIA)は、現実的な条件下で提案されたよりも効果が低いことを示唆し、信頼性の高いプライバシ監査には、実践的なトレーニング実践、実行可能なアタッカーの仮定、再現性の検討を反映した評価プロトコルが必要であることを示唆している。
コードはhttps://github.com/najeebjebreel/lira_analysis.comで入手できる。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Low-Cost High-Power Membership Inference Attacks [15.240271537329534]
メンバーシップ推論攻撃は、特定のデータポイントがモデルのトレーニングに使用されたかどうかを検出することを目的としている。
我々は,計算オーバーヘッドの少ない,堅牢なメンバシップ推論攻撃を行うための新しい統計的試験を設計する。
RMIAは、機械学習における実用的かつ正確なデータプライバシーリスク評価の基礎を成している。
論文 参考訳(メタデータ) (2023-12-06T03:18:49Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。