論文の概要: Neural Breadcrumbs: Membership Inference Attacks on LLMs Through Hidden State and Attention Pattern Analysis
- arxiv url: http://arxiv.org/abs/2509.05449v1
- Date: Fri, 05 Sep 2025 19:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.516882
- Title: Neural Breadcrumbs: Membership Inference Attacks on LLMs Through Hidden State and Attention Pattern Analysis
- Title(参考訳): ニューラルブレッドクラブ:隠れ状態と注意パターン分析によるLCMの会員推論攻撃
- Authors: Disha Makhija, Manoj Ghuhan Arivazhagan, Vinayshekhar Bannihatti Kumar, Rashmi Gangadharaiah,
- Abstract要約: メンバーシップ推論攻撃(MIA)は、特定のデータが機械学習モデルのトレーニングに使用されたかどうかを明らかにする。
我々の研究は、内部表現を単に出力ではなく検査することで、メンバーシップ推論信号に対するさらなる洞察を与えることができるかを探る。
本研究は,出力に基づく信号が保護された場合でも,内部モデル行動がトレーニングデータの露出の側面を明らかにすることを示唆している。
- 参考スコア(独自算出の注目度): 9.529147118376464
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Membership inference attacks (MIAs) reveal whether specific data was used to train machine learning models, serving as important tools for privacy auditing and compliance assessment. Recent studies have reported that MIAs perform only marginally better than random guessing against large language models, suggesting that modern pre-training approaches with massive datasets may be free from privacy leakage risks. Our work offers a complementary perspective to these findings by exploring how examining LLMs' internal representations, rather than just their outputs, may provide additional insights into potential membership inference signals. Our framework, \emph{memTrace}, follows what we call \enquote{neural breadcrumbs} extracting informative signals from transformer hidden states and attention patterns as they process candidate sequences. By analyzing layer-wise representation dynamics, attention distribution characteristics, and cross-layer transition patterns, we detect potential memorization fingerprints that traditional loss-based approaches may not capture. This approach yields strong membership detection across several model families achieving average AUC scores of 0.85 on popular MIA benchmarks. Our findings suggest that internal model behaviors can reveal aspects of training data exposure even when output-based signals appear protected, highlighting the need for further research into membership privacy and the development of more robust privacy-preserving training techniques for large language models.
- Abstract(参考訳): メンバーシップ推論攻撃(MIA)は、特定のデータが機械学習モデルのトレーニングに使用されたかどうかを明らかにし、プライバシ監査とコンプライアンスアセスメントの重要なツールとして機能する。
近年の研究では、MIAは大規模言語モデルに対してランダムな推測よりもわずかに優れていることが報告されており、現代の大規模データセットによる事前学習アプローチはプライバシー漏洩のリスクから解放される可能性があることを示唆している。
我々の研究は、LCMの内部表現を単に出力ではなく調査することで、これらの発見を補完する視点を提供する。
我々のフレームワーク \emph{memTrace} は、私たちが 'enquote{neural breadcrumbs' と呼ぶもので、変圧器隠蔽状態から情報信号を抽出し、候補シーケンスを処理する際に注意パターンを抽出する。
レイヤワイズ表現のダイナミクス,注意分布特性,および層間遷移パターンを解析することにより,従来のロスベースアプローチでは捉えられない潜在的な記憶指紋を検出する。
このアプローチは、人気のあるMIAベンチマークで平均0.85のAUCスコアを達成するために、複数のモデルファミリ間で強力なメンバシップ検出を行う。
内部モデル行動は,出力に基づく信号が保護された場合でも,トレーニングデータ公開の側面を明らかにすることが示唆され,メンバーシッププライバシのさらなる研究の必要性と,大規模言語モデルのためのより堅牢なプライバシ保護トレーニング技術の開発が注目される。
関連論文リスト
- Noise as a Probe: Membership Inference Attacks on Diffusion Models Leveraging Initial Noise [51.179816451161635]
拡散モデルは画像生成において顕著な進歩を遂げているが、そのデプロイの増加はプライバシに関する深刻な懸念を引き起こす。
広範に使われているノイズスケジュールは、画像のセマンティック情報を完全に排除することができない。
本稿では,初期雑音に意味情報を注入し,モデル生成結果を解析してメンバーシップを推定する,シンプルで効果的なメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:29:01Z) - AttenMIA: LLM Membership Inference Attack through Attention Signals [8.170623979629953]
我々は,変圧器モデル内部の自己注意パターンを利用してメンバシップを推定する新しいMIAフレームワークであるAttenMIAを紹介する。
注意に基づく特徴は、特に重要な低偽陽性尺度の下で、一貫してベースラインを上回ります。
また,データ抽出フレームワークにおける他のメンバシップ推論攻撃を置き換えるためにAttenMIAを用いることで,技術状況よりも優れたデータ抽出攻撃を訓練できることを示す。
論文 参考訳(メタデータ) (2026-01-26T03:45:56Z) - Exposing and Defending Membership Leakage in Vulnerability Prediction Models [13.905375956316632]
メンバーシップ推論攻撃(MIA)は、トレーニング中に特定のコードサンプルが使用されたかどうかを推測することを目的としている。
ノイズベースメンバーシップ推論防衛(NMID)は、対向的推論を妨害するために出力マスキングとガウスノイズ注入を適用した軽量防衛モジュールである。
我々の研究は、コード分析における重要なプライバシーリスクを強調し、AIベースのソフトウェアシステムを保護するための実用的な防衛戦略を提供する。
論文 参考訳(メタデータ) (2025-12-09T06:40:51Z) - P-MIA: A Profiled-Based Membership Inference Attack on Cognitive Diagnosis Models [22.027021891488683]
本論文は,認知診断モデル(CDM)に対するMIA(Community Inference attack)を系統的に調査した最初の事例である。
これらのプラットフォームの説明可能性を利用した,斬新で現実的なグレーボックス脅威モデルを提案する。
モデルの最終予測確率と内部知識状態ベクトルを特徴とするプロファイルベースのMIAフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-06T01:53:04Z) - The Hidden Cost of Modeling P(X): Vulnerability to Membership Inference Attacks in Generative Text Classifiers [6.542294761666199]
メンバーシップ推論攻撃(MIA)は、モデルのトレーニングデータセットに特定のサンプルが含まれているかどうかを敵が判断できるようにすることで、重要なプライバシー上の脅威となる。
結合可能性$P(X,Y)$を明示的にモデル化した完全生成型分類器は、メンバシップリークに対して最も脆弱であることを示す。
論文 参考訳(メタデータ) (2025-10-17T18:09:33Z) - Large Language Model Sourcing: A Survey [84.63438376832471]
大規模言語モデル(LLM)は人工知能に革命をもたらし、目的的タスクのサポートから主観的な意思決定の強化へと移行した。
LLMのブラックボックスの性質と生成したコンテンツの人間的品質のため、幻覚、偏見、不公平さ、著作権侵害などの問題が重要になる。
本研究は,4つの相互関連次元を中心に整理されたLCMによるコンテンツの出所追跡について,系統的研究を行った。
論文 参考訳(メタデータ) (2025-10-11T10:52:30Z) - On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - When Better Features Mean Greater Risks: The Performance-Privacy Trade-Off in Contrastive Learning [9.660010886245155]
本稿では,エンコーダモデルを対象としたMIA攻撃によるプライバシの脅威を系統的に検討する。
本稿では,Lp-Norm Likelihood Attack (LpLA) と呼ばれる特徴ベクトルのpノルムに基づく新しいメンバシップ推論攻撃法を提案する。
論文 参考訳(メタデータ) (2025-06-06T05:03:29Z) - Memorization or Interpolation ? Detecting LLM Memorization through Input Perturbation Analysis [8.725781605542675]
大規模言語モデル(LLM)は,大規模なデータセットのトレーニングを通じて,優れたパフォーマンスを実現する。
LLMは、真の一般化ではなく、トレーニングデータの冗長な再現のような振る舞いを示すことができる。
本稿では, LLMにおける暗記検出のための新しい手法であるPEARLを紹介する。
論文 参考訳(メタデータ) (2025-05-05T20:42:34Z) - EM-MIAs: Enhancing Membership Inference Attacks in Large Language Models through Ensemble Modeling [2.494935495983421]
本稿では,XGBoostをベースとしたモデルに既存のMIA技術を統合し,全体的な攻撃性能(EM-MIAs)を向上させる新しいアンサンブル攻撃法を提案する。
実験結果から,アンサンブルモデルではAUC-ROCと精度が,大規模言語モデルやデータセットを対象とする個別攻撃法と比較して有意に向上していることがわかった。
論文 参考訳(メタデータ) (2024-12-23T03:47:54Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Noisy Neighbors: Efficient membership inference attacks against LLMs [2.666596421430287]
本稿では,組込み空間に雑音を付加することにより,対象試料のテクストノイズを発生させる効率的な手法を提案する。
提案手法はシャドウモデルの有効性と密に一致し,実際のプライバシー監査シナリオにおけるユーザビリティを示す。
論文 参考訳(メタデータ) (2024-06-24T12:02:20Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection
Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。
本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。
本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文 参考訳(メタデータ) (2023-06-06T14:23:34Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。