論文の概要: Automatic Calibration for Membership Inference Attack on Large Language Models
- arxiv url: http://arxiv.org/abs/2505.03392v1
- Date: Tue, 06 May 2025 10:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.32759
- Title: Automatic Calibration for Membership Inference Attack on Large Language Models
- Title(参考訳): 大規模言語モデルにおけるメンバシップ推論攻撃の自動校正
- Authors: Saleh Zare Zade, Yao Qiang, Xiangyu Zhou, Hui Zhu, Mohammad Amin Roshani, Prashant Khanduri, Dongxiao Zhu,
- Abstract要約: 我々は、ACMIA(Automatic Membership Inference Attack)と呼ばれる新しいフレームワークを紹介する。
ACMIAは調整可能な温度を校正し、確率を効果的に出力する。
提案した攻撃は、非常に効果的で、堅牢で、一般化可能である。
- 参考スコア(独自算出の注目度): 11.497378121062251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Membership Inference Attacks (MIAs) have recently been employed to determine whether a specific text was part of the pre-training data of Large Language Models (LLMs). However, existing methods often misinfer non-members as members, leading to a high false positive rate, or depend on additional reference models for probability calibration, which limits their practicality. To overcome these challenges, we introduce a novel framework called Automatic Calibration Membership Inference Attack (ACMIA), which utilizes a tunable temperature to calibrate output probabilities effectively. This approach is inspired by our theoretical insights into maximum likelihood estimation during the pre-training of LLMs. We introduce ACMIA in three configurations designed to accommodate different levels of model access and increase the probability gap between members and non-members, improving the reliability and robustness of membership inference. Extensive experiments on various open-source LLMs demonstrate that our proposed attack is highly effective, robust, and generalizable, surpassing state-of-the-art baselines across three widely used benchmarks. Our code is available at: \href{https://github.com/Salehzz/ACMIA}{\textcolor{blue}{Github}}.
- Abstract(参考訳): 会員推論攻撃(MIA)は、最近、ある特定のテキストがLarge Language Models(LLMs)の事前学習データの一部であるかどうかを判断するために使用されている。
しかし、既存の方法では、非メンバーをメンバーと誤認することが多く、偽陽性率が高いか、あるいは確率校正のための追加参照モデルに依存するため、その実用性は制限される。
これらの課題を克服するために、可変温度を用いて出力確率を効果的に調整する、ACMIA(Automatic Calibration Membership Inference Attack)という新しいフレームワークを導入する。
この手法は, LLMの事前学習における最大推定量の理論的考察から着想を得たものである。
モデルアクセスの異なるレベルに対応し、メンバーと非メンバー間の確率ギャップを増大させるように設計された3つの構成にACMIAを導入し、メンバーシップ推論の信頼性と堅牢性を向上させる。
様々なオープンソース LLM に関する大規模な実験により、我々の提案した攻撃は、非常に効果的で、堅牢で、一般化可能であり、3つの広く使用されているベンチマークで最先端のベースラインを超えていることが示された。
私たちのコードは以下の通りである。
関連論文リスト
- EM-MIAs: Enhancing Membership Inference Attacks in Large Language Models through Ensemble Modeling [2.494935495983421]
本稿では,XGBoostをベースとしたモデルに既存のMIA技術を統合し,全体的な攻撃性能(EM-MIAs)を向上させる新しいアンサンブル攻撃法を提案する。
実験結果から,アンサンブルモデルではAUC-ROCと精度が,大規模言語モデルやデータセットを対象とする個別攻撃法と比較して有意に向上していることがわかった。
論文 参考訳(メタデータ) (2024-12-23T03:47:54Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods [56.073335779595475]
ReCaLL (Relative Conditional Log-Likelihood) という新しいメンバーシップ推論攻撃(MIA)を提案する。
ReCaLLは、ターゲットデータポイントを非メンバーコンテキストでプレフィックスする場合、条件付きログライクな状態の相対的変化を調べる。
我々は総合的な実験を行い、ReCaLLがWikiMIAデータセット上で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-06-23T00:23:13Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。