論文の概要: In-Context Probing for Membership Inference in Fine-Tuned Language Models
- arxiv url: http://arxiv.org/abs/2512.16292v1
- Date: Thu, 18 Dec 2025 08:26:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.9795
- Title: In-Context Probing for Membership Inference in Fine-Tuned Language Models
- Title(参考訳): 微調整言語モデルにおけるメンバーシップ推論の文脈推論
- Authors: Zhexi Lu, Hongliang Chi, Nathalie Baracaldo, Swanand Ravindra Kadhe, Yuseok Jeon, Lei Yu,
- Abstract要約: メンバーシップ推論攻撃(MIA)は、微調整された大規模言語モデル(LLM)に重大なプライバシー上の脅威をもたらす
トレーニング力学の理論に基づく新しいMIAフレームワークであるICP-MIAを提案する。
ICP-MIAは、特に偽陽性率の低い場合、以前のブラックボックスMIAよりも著しく優れていた。
- 参考スコア(独自算出の注目度): 14.590625376049955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Membership inference attacks (MIAs) pose a critical privacy threat to fine-tuned large language models (LLMs), especially when models are adapted to domain-specific tasks using sensitive data. While prior black-box MIA techniques rely on confidence scores or token likelihoods, these signals are often entangled with a sample's intrinsic properties - such as content difficulty or rarity - leading to poor generalization and low signal-to-noise ratios. In this paper, we propose ICP-MIA, a novel MIA framework grounded in the theory of training dynamics, particularly the phenomenon of diminishing returns during optimization. We introduce the Optimization Gap as a fundamental signal of membership: at convergence, member samples exhibit minimal remaining loss-reduction potential, while non-members retain significant potential for further optimization. To estimate this gap in a black-box setting, we propose In-Context Probing (ICP), a training-free method that simulates fine-tuning-like behavior via strategically constructed input contexts. We propose two probing strategies: reference-data-based (using semantically similar public samples) and self-perturbation (via masking or generation). Experiments on three tasks and multiple LLMs show that ICP-MIA significantly outperforms prior black-box MIAs, particularly at low false positive rates. We further analyze how reference data alignment, model type, PEFT configurations, and training schedules affect attack effectiveness. Our findings establish ICP-MIA as a practical and theoretically grounded framework for auditing privacy risks in deployed LLMs.
- Abstract(参考訳): メンバーシップ推論攻撃(MIA)は、微調整された大規模言語モデル(LLM)にとって重要なプライバシー上の脅威となる。
従来のブラックボックスMIA技術は信頼性スコアやトークンの確率に依存していたが、これらの信号は、コンテンツの難易度や希少度などのサンプル固有の特性と絡み合っており、一般化が不十分で信号対雑音比が低くなる。
本稿では,トレーニング力学の理論に基づく新しいMIAフレームワークであるICP-MIAを提案する。
我々は、最適化ギャップを会員の基本的なシグナルとして導入する:収束において、メンバーサンプルは最小限の損失低減ポテンシャルを示すが、非メンバーはさらなる最適化の有意なポテンシャルを保持する。
ブラックボックス設定におけるこのギャップを推定するために、戦略的に構築された入力コンテキストを介して微調整のような振る舞いをシミュレートするトレーニング不要な手法であるIn-Context Probing (ICP)を提案する。
本稿では,参照データベース(意味論的に類似した公開サンプルを用いた)と自己摂動(マスキングや生成による)の2つの探索手法を提案する。
3つのタスクと複数のLCMの実験により、ICP-MIAは、特に偽陽性率の低い以前のブラックボックスMIAよりも著しく優れていた。
さらに、参照データアライメント、モデルタイプ、PEFT構成、トレーニングスケジュールが攻撃効果に与える影響を分析する。
本研究は,ICP-MIAをLLMのプライバシリスク監査のための実用的,理論的基盤となるフレームワークとして確立した。
関連論文リスト
- PerProb: Indirectly Evaluating Memorization in Large Language Models [13.905375956316632]
LLM脆弱性を間接的に評価するためのラベルフリーフレームワークであるPerProbを提案する。
PerProbは、被害者モデルと敵対モデルによって生成されたデータ間の難易度と平均ログ確率の変化を評価する。
PerProbの有効性を5つのデータセットで評価し、さまざまなメモリ挙動とプライバシリスクを明らかにした。
論文 参考訳(メタデータ) (2025-12-16T17:10:01Z) - On the Effectiveness of Membership Inference in Targeted Data Extraction from Large Language Models [3.1988753364712115]
大規模言語モデル(LLM)は、mem-orizingトレーニングデータに傾向があり、重大なプライバシーリスクを引き起こす。
本研究では,複数のMIA手法をデータ抽出パイプラインに統合し,その性能を体系的に評価する。
論文 参考訳(メタデータ) (2025-12-15T14:05:49Z) - Exposing and Defending Membership Leakage in Vulnerability Prediction Models [13.905375956316632]
メンバーシップ推論攻撃(MIA)は、トレーニング中に特定のコードサンプルが使用されたかどうかを推測することを目的としている。
ノイズベースメンバーシップ推論防衛(NMID)は、対向的推論を妨害するために出力マスキングとガウスノイズ注入を適用した軽量防衛モジュールである。
我々の研究は、コード分析における重要なプライバシーリスクを強調し、AIベースのソフトウェアシステムを保護するための実用的な防衛戦略を提供する。
論文 参考訳(メタデータ) (2025-12-09T06:40:51Z) - Neural Breadcrumbs: Membership Inference Attacks on LLMs Through Hidden State and Attention Pattern Analysis [9.529147118376464]
メンバーシップ推論攻撃(MIA)は、特定のデータが機械学習モデルのトレーニングに使用されたかどうかを明らかにする。
我々の研究は、内部表現を単に出力ではなく検査することで、メンバーシップ推論信号に対するさらなる洞察を与えることができるかを探る。
本研究は,出力に基づく信号が保護された場合でも,内部モデル行動がトレーニングデータの露出の側面を明らかにすることを示唆している。
論文 参考訳(メタデータ) (2025-09-05T19:05:49Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [65.04475956174959]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLにおける重要な課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータの敵ジャミングに対する感受性である。
本稿では,無線ネットワーク上での大規模言語モデル (LLM) と視覚言語モデル (VLM) を用いたレジリエンスSFLのための物理層フレームワークを開発する。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - Noisy Neighbors: Efficient membership inference attacks against LLMs [2.666596421430287]
本稿では,組込み空間に雑音を付加することにより,対象試料のテクストノイズを発生させる効率的な手法を提案する。
提案手法はシャドウモデルの有効性と密に一致し,実際のプライバシー監査シナリオにおけるユーザビリティを示す。
論文 参考訳(メタデータ) (2024-06-24T12:02:20Z) - Towards Robust Federated Learning via Logits Calibration on Non-IID Data [49.286558007937856]
Federated Learning(FL)は、エッジネットワークにおける分散デバイスの共同モデルトレーニングに基づく、プライバシ保護のための分散管理フレームワークである。
近年の研究では、FLは敵の例に弱いことが示されており、その性能は著しく低下している。
本研究では,対戦型訓練(AT)フレームワークを用いて,対戦型実例(AE)攻撃に対するFLモデルの堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-05T09:18:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。