論文の概要: G-Drift MIA: Membership Inference via Gradient-Induced Feature Drift in LLMs
- arxiv url: http://arxiv.org/abs/2604.00419v1
- Date: Wed, 01 Apr 2026 03:01:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.809789
- Title: G-Drift MIA: Membership Inference via Gradient-Induced Feature Drift in LLMs
- Title(参考訳): GドリフトMIA:LLMにおけるグラディエント誘起特徴ドリフトによるメンバーシップ推論
- Authors: Ravi Ranjan, Utkarsh Grover, Xiaomin Lin, Agoritsa Polyzou,
- Abstract要約: メンバーシップ推論攻撃(MIA)は、トレーニング中に特定の例が使用されたかどうかを判断することを目的としている。
G-Drift MIAは,勾配誘起特徴量ドリフトに基づくホワイトボックスメンバシップ推論手法である。
G-Driftは信頼性ベース、パープレキシティベース、参照ベースアタックを大きく上回る。
- 参考スコア(独自算出の注目度): 1.8986796884429726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are trained on massive web-scale corpora, raising growing concerns about privacy and copyright. Membership inference attacks (MIAs) aim to determine whether a given example was used during training. Existing LLM MIAs largely rely on output probabilities or loss values and often perform only marginally better than random guessing when members and non-members are drawn from the same distribution. We introduce G-Drift MIA, a white-box membership inference method based on gradient-induced feature drift. Given a candidate (x,y), we apply a single targeted gradient-ascent step that increases its loss and measure the resulting changes in internal representations, including logits, hidden-layer activations, and projections onto fixed feature directions, before and after the update. These drift signals are used to train a lightweight logistic classifier that effectively separates members from non-members. Across multiple transformer-based LLMs and datasets derived from realistic MIA benchmarks, G-Drift substantially outperforms confidence-based, perplexity-based, and reference-based attacks. We further show that memorized training samples systematically exhibit smaller and more structured feature drift than non-members, providing a mechanistic link between gradient geometry, representation stability, and memorization. In general, our results demonstrate that small, controlled gradient interventions offer a practical tool for auditing the membership of training-data and assessing privacy risks in LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は大規模なWebスケールコーパスでトレーニングされており、プライバシや著作権に関する懸念が高まっている。
メンバーシップ推論攻撃(MIA)は、トレーニング中に特定の例が使用されたかどうかを判断することを目的としている。
既存のLLM MIAは出力確率や損失値に大きく依存しており、メンバーと非メンバーが同じ分布から引き出されるときのランダムな推測よりもわずかに良い。
G-Drift MIAは,勾配誘起特徴量ドリフトに基づくホワイトボックスメンバシップ推論手法である。
候補(x,y)が与えられた場合、その損失を増大させ、ロジット、隠れ層アクティベーション、固定された特徴方向への投影を含む内部表現の変化を、更新前後に計測する単一の目標勾配上昇ステップを適用する。
これらのドリフト信号は、メンバーを非メンバーから効果的に分離する軽量なロジスティック分類器の訓練に使用される。
複数のトランスフォーマーベースのLLMと、現実的なMIAベンチマークから派生したデータセットを通じて、G-Driftは、信頼性ベース、パープレキシティベース、参照ベースアタックを大幅に上回る。
さらに、記憶されたトレーニングサンプルは、非メンバーよりも小さく、より構造的な特徴ドリフトを体系的に示し、勾配幾何学、表現安定性、記憶の力学的リンクを提供する。
以上の結果から,LLMにおけるトレーニングデータの構成を監査し,プライバシリスクを評価するための実践的ツールとして,小規模で制御された勾配介入が有効であることが示唆された。
関連論文リスト
- Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。
本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-27T13:48:50Z) - AttenMIA: LLM Membership Inference Attack through Attention Signals [8.170623979629953]
我々は,変圧器モデル内部の自己注意パターンを利用してメンバシップを推定する新しいMIAフレームワークであるAttenMIAを紹介する。
注意に基づく特徴は、特に重要な低偽陽性尺度の下で、一貫してベースラインを上回ります。
また,データ抽出フレームワークにおける他のメンバシップ推論攻撃を置き換えるためにAttenMIAを用いることで,技術状況よりも優れたデータ抽出攻撃を訓練できることを示す。
論文 参考訳(メタデータ) (2026-01-26T03:45:56Z) - In-Context Probing for Membership Inference in Fine-Tuned Language Models [14.590625376049955]
メンバーシップ推論攻撃(MIA)は、微調整された大規模言語モデル(LLM)に重大なプライバシー上の脅威をもたらす
トレーニング力学の理論に基づく新しいMIAフレームワークであるICP-MIAを提案する。
ICP-MIAは、特に偽陽性率の低い場合、以前のブラックボックスMIAよりも著しく優れていた。
論文 参考訳(メタデータ) (2025-12-18T08:26:26Z) - PerProb: Indirectly Evaluating Memorization in Large Language Models [13.905375956316632]
LLM脆弱性を間接的に評価するためのラベルフリーフレームワークであるPerProbを提案する。
PerProbは、被害者モデルと敵対モデルによって生成されたデータ間の難易度と平均ログ確率の変化を評価する。
PerProbの有効性を5つのデータセットで評価し、さまざまなメモリ挙動とプライバシリスクを明らかにした。
論文 参考訳(メタデータ) (2025-12-16T17:10:01Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods [56.073335779595475]
本稿ではReCaLL(Relative Conditional Log-Likelihood)を提案する。
実験の結果,非メンバープレフィックスの条件付きメンバーデータは,非メンバーデータと比較してログライクな傾向が著しく低下することがわかった。
我々は総合的な実験を行い、ReCaLLがWikiMIAデータセット上で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-06-23T00:23:13Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。