論文の概要: Powerful Training-Free Membership Inference Against Autoregressive Language Models
- arxiv url: http://arxiv.org/abs/2601.12104v1
- Date: Sat, 17 Jan 2026 16:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.465143
- Title: Powerful Training-Free Membership Inference Against Autoregressive Language Models
- Title(参考訳): 自己回帰型言語モデルに対する強力な学習自由メンバーシップ推論
- Authors: David Ilić, David Stanojević, Kostadin Cvejoski,
- Abstract要約: EZ-MIAは、重要な観測値を利用するメンバーシップ推論攻撃であり、記憶はエラー位置において最も強く現れる。
本稿では,誤差位置における確率シフトの方向不均衡を計測する誤差ゾーン(EZ)スコアを導入する。
その結果、微調整言語モデルのプライバシーリスクは、これまで理解されていたよりもかなり大きいことが判明した。
- 参考スコア(独自算出の注目度): 3.9380576851378657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuned language models pose significant privacy risks, as they may memorize and expose sensitive information from their training data. Membership inference attacks (MIAs) provide a principled framework for auditing these risks, yet existing methods achieve limited detection rates, particularly at the low false-positive thresholds required for practical privacy auditing. We present EZ-MIA, a membership inference attack that exploits a key observation: memorization manifests most strongly at error positions, specifically tokens where the model predicts incorrectly yet still shows elevated probability for training examples. We introduce the Error Zone (EZ) score, which measures the directional imbalance of probability shifts at error positions relative to a pretrained reference model. This principled statistic requires only two forward passes per query and no model training of any kind. On WikiText with GPT-2, EZ-MIA achieves 3.8x higher detection than the previous state-of-the-art under identical conditions (66.3% versus 17.5% true positive rate at 1% false positive rate), with near-perfect discrimination (AUC 0.98). At the stringent 0.1% FPR threshold critical for real-world auditing, we achieve 8x higher detection than prior work (14.0% versus 1.8%), requiring no reference model training. These gains extend to larger architectures: on AG News with Llama-2-7B, we achieve 3x higher detection (46.7% versus 15.8% TPR at 1% FPR). These results establish that privacy risks of fine-tuned language models are substantially greater than previously understood, with implications for both privacy auditing and deployment decisions. Code is available at https://github.com/JetBrains-Research/ez-mia.
- Abstract(参考訳): 微調整された言語モデルは、トレーニングデータから機密情報を記憶し、公開する可能性があるため、重大なプライバシーリスクを引き起こす。
メンバーシップ推論攻撃(MIA)は、これらのリスクを監査するための原則的な枠組みを提供するが、既存の手法は検出率を制限する。
EZ-MIAは、重要な観測値を利用するメンバーシップ推論攻撃であり、記憶はエラー位置、特にモデルが誤って予測するトークンで最も強く現れるが、トレーニング例では高い確率を示す。
本稿では,事前学習した基準モデルに対する誤差位置における確率シフトの方向不均衡を計測する誤差ゾーン(EZ)スコアを導入する。
この原理的な統計はクエリ毎に2つのフォワードパスしか必要とせず、どんな種類のモデルトレーニングも必要としない。
GPT-2を用いたWikiTextでは、EZ-MIAは、同じ条件下で前の最先端よりも3.8倍高い検出(66.3%、偽陽性率1%で17.5%)、ほぼ完全な識別(AUC 0.98)を達成している。
実世界の監査に欠かせない厳密な0.1%のFPRしきい値では、従来の作業よりも8倍高い検出(14.0%対1.8%)を達成し、参照モデルトレーニングを必要としない。
AG News with Llama-2-7Bでは3倍高い検出(FPRで15.8%のTPRに対して46.7%)を達成した。
これらの結果は、微調整言語モデルのプライバシリスクが、これまで理解されていたよりもはるかに大きいことを示し、プライバシ監査とデプロイメント決定の両方に影響を及ぼす。
コードはhttps://github.com/JetBrains-Research/ez-mia.comで入手できる。
関連論文リスト
- SeBERTis: A Framework for Producing Classifiers of Security-Related Issue Reports [8.545800179148442]
SEBERTISは、Deep Neural Networks(DNN)を語彙的キューに依存しない分類器として訓練するフレームワークである。
当社のフレームワークは,1万件のGitHubイシューレポートをキュレートしたコーパスのセキュリティ関連問題を検出する上で,0.9880のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-12-17T01:23:11Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Privacy-Preserved Automated Scoring using Federated Learning for Educational Research [1.2556373621040728]
本稿では,教育評価の自動評価のための統合学習(FL)フレームワークを提案する。
我々は,2つの最先端FL手法と集中学習ベースラインに対して,我々のモデルをベンチマークする。
その結果,本モデルが最も精度が高い(94.5%)ことが示唆された。
論文 参考訳(メタデータ) (2025-03-12T19:06:25Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models [3.958317527488534]
大きな言語と視覚言語モデル(LLMs/VLMs)は、安全クリティカルなアプリケーションでますます使われている。
不確かさの定量化は、予測の信頼性を評価するのに役立ち、不確実性が高い場合の回避を可能にする。
本稿では,学習可能な禁忌法を提案し,強化学習(RL)と整形予測(CP)を統合して禁忌閾値を最適化する。
論文 参考訳(メタデータ) (2025-02-08T21:30:41Z) - Low-Cost High-Power Membership Inference Attacks [15.240271537329534]
メンバーシップ推論攻撃は、特定のデータポイントがモデルのトレーニングに使用されたかどうかを検出することを目的としている。
我々は,計算オーバーヘッドの少ない,堅牢なメンバシップ推論攻撃を行うための新しい統計的試験を設計する。
RMIAは、機械学習における実用的かつ正確なデータプライバシーリスク評価の基礎を成している。
論文 参考訳(メタデータ) (2023-12-06T03:18:49Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Private, fair and accurate: Training large-scale, privacy-preserving AI models in medical imaging [47.99192239793597]
我々は,AIモデルのプライバシ保護トレーニングが,非プライベートトレーニングと比較して精度と公平性に与える影響を評価した。
我々の研究は、実際の臨床データセットの困難な現実的な状況下では、診断深層学習モデルのプライバシー保護トレーニングは、優れた診断精度と公正さで可能であることを示しています。
論文 参考訳(メタデータ) (2023-02-03T09:49:13Z) - Unsupervised User-Based Insider Threat Detection Using Bayesian Gaussian
Mixture Models [0.0]
本稿では,監査データに基づく教師なしインサイダー脅威検出システムを提案する。
提案手法は,ユーザベースモデルを用いて,特定の振る舞いのモデル化とWord2Vecに基づく自動特徴抽出システムを実現する。
その結果,提案手法は最先端手法と競合し,精度が88%,真負率が93%,偽陽性率が6.9%であった。
論文 参考訳(メタデータ) (2022-11-23T13:45:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。