論文の概要: AttenMIA: LLM Membership Inference Attack through Attention Signals
- arxiv url: http://arxiv.org/abs/2601.18110v1
- Date: Mon, 26 Jan 2026 03:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.654451
- Title: AttenMIA: LLM Membership Inference Attack through Attention Signals
- Title(参考訳): AttenMIA: 注意信号によるLLMメンバーシップ推論攻撃
- Authors: Pedram Zaree, Md Abdullah Al Mamun, Yue Dong, Ihsen Alouani, Nael Abu-Ghazaleh,
- Abstract要約: 我々は,変圧器モデル内部の自己注意パターンを利用してメンバシップを推定する新しいMIAフレームワークであるAttenMIAを紹介する。
注意に基づく特徴は、特に重要な低偽陽性尺度の下で、一貫してベースラインを上回ります。
また,データ抽出フレームワークにおける他のメンバシップ推論攻撃を置き換えるためにAttenMIAを用いることで,技術状況よりも優れたデータ抽出攻撃を訓練できることを示す。
- 参考スコア(独自算出の注目度): 8.170623979629953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed to enable or improve a multitude of real-world applications. Given the large size of their training data sets, their tendency to memorize training data raises serious privacy and intellectual property concerns. A key threat is the membership inference attack (MIA), which aims to determine whether a given sample was included in the model's training set. Existing MIAs for LLMs rely primarily on output confidence scores or embedding-based features, but these signals are often brittle, leading to limited attack success. We introduce AttenMIA, a new MIA framework that exploits self-attention patterns inside the transformer model to infer membership. Attention controls the information flow within the transformer, exposing different patterns for memorization that can be used to identify members of the dataset. Our method uses information from attention heads across layers and combines them with perturbation-based divergence metrics to train an effective MIA classifier. Using extensive experiments on open-source models including LLaMA-2, Pythia, and Opt models, we show that attention-based features consistently outperform baselines, particularly under the important low-false-positive metric (e.g., achieving up to 0.996 ROC AUC & 87.9% TPR@1%FPR on the WikiMIA-32 benchmark with Llama2-13b). We show that attention signals generalize across datasets and architectures, and provide a layer- and head-level analysis of where membership leakage is most pronounced. We also show that using AttenMIA to replace other membership inference attacks in a data extraction framework results in training data extraction attacks that outperform the state of the art. Our findings reveal that attention mechanisms, originally introduced to enhance interpretability, can inadvertently amplify privacy risks in LLMs, underscoring the need for new defenses.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多数の現実世界のアプリケーションを有効にまたは改善するために、ますます多くデプロイされている。
トレーニングデータセットの大きさを考えると、トレーニングデータを記憶する傾向は、深刻なプライバシーと知的財産権の懸念を引き起こす。
主要な脅威は、モデルのトレーニングセットに与えられたサンプルが含まれているかどうかを判断することを目的とした、メンバシップ推論攻撃(MIA)である。
LLMの既存のMIAは、主に出力の信頼性スコアや埋め込みベースの特徴に依存しているが、これらの信号は不安定であり、攻撃の成功は限られている。
我々は,変圧器モデル内部の自己注意パターンを利用してメンバシップを推定する新しいMIAフレームワークであるAttenMIAを紹介する。
アテンションはトランスフォーマー内の情報フローを制御し、データセットのメンバーを特定するために使用できる記憶のためのさまざまなパターンを公開する。
提案手法は,階層横断の注目ヘッドからの情報を用いて,摂動に基づく発散測定値と組み合わせて,効果的なMIA分類器を訓練する。
LLaMA-2、Pythia、Optモデルなどのオープンソースモデルに関する広範な実験を用いて、注意に基づく特徴は、特に重要な低偽陽性の指標(例えば、Llama2-13b の WikiMIA-32 ベンチマークで 0.996 ROC AUC と 87.9% TPR@1%FPR を達成)において、ベースラインを一貫して上回ることを示した。
本研究では,アテンション信号がデータセットやアーキテクチャ全体にわたって一般化されることを示し,メンバーシップリークが最も顕著な場所を階層的および階層的に分析する。
また,データ抽出フレームワークにおける他のメンバシップ推論攻撃を置き換えるためにAttenMIAを用いることで,最先端技術を上回るデータ抽出攻撃を訓練できることを示す。
本研究は, 当初, 解釈可能性を高めるために導入された注意機構が, LLMのプライバシーリスクを必然的に増幅し, 新たな防衛の必要性を浮き彫りにすることを示した。
関連論文リスト
- Res-MIA: A Training-Free Resolution-Based Membership Inference Attack on Federated Learning Models [1.9336815376402718]
メンバーシップ推論攻撃は、機械学習モデルのプライバシに深刻な脅威をもたらす。
トレーニングフリーでブラックボックスのメンバシップ推論攻撃であるRes-MIAを導入する。
CIFAR-10で訓練された連合 ResNet-18 に対する攻撃について検討した。
論文 参考訳(メタデータ) (2026-01-24T08:58:39Z) - In-Context Probing for Membership Inference in Fine-Tuned Language Models [14.590625376049955]
メンバーシップ推論攻撃(MIA)は、微調整された大規模言語モデル(LLM)に重大なプライバシー上の脅威をもたらす
トレーニング力学の理論に基づく新しいMIAフレームワークであるICP-MIAを提案する。
ICP-MIAは、特に偽陽性率の低い場合、以前のブラックボックスMIAよりも著しく優れていた。
論文 参考訳(メタデータ) (2025-12-18T08:26:26Z) - (Token-Level) InfoRMIA: Stronger Membership Inference and Memorization Assessment for LLMs [13.601386341584545]
大規模言語モデル(LLM)は、ほぼすべての利用可能なデータに基づいてトレーニングされている。
プライバシを定量化する標準的な方法は、メンバシップ推論攻撃である。
本稿では、会員推論の原理的情報理論の定式化であるInfoRMIAを紹介する。
論文 参考訳(メタデータ) (2025-10-07T04:59:49Z) - Neural Breadcrumbs: Membership Inference Attacks on LLMs Through Hidden State and Attention Pattern Analysis [9.529147118376464]
メンバーシップ推論攻撃(MIA)は、特定のデータが機械学習モデルのトレーニングに使用されたかどうかを明らかにする。
我々の研究は、内部表現を単に出力ではなく検査することで、メンバーシップ推論信号に対するさらなる洞察を与えることができるかを探る。
本研究は,出力に基づく信号が保護された場合でも,内部モデル行動がトレーニングデータの露出の側面を明らかにすることを示唆している。
論文 参考訳(メタデータ) (2025-09-05T19:05:49Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。