論文の概要: (Token-Level) InfoRMIA: Stronger Membership Inference and Memorization Assessment for LLMs
- arxiv url: http://arxiv.org/abs/2510.05582v2
- Date: Thu, 09 Oct 2025 10:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.566794
- Title: (Token-Level) InfoRMIA: Stronger Membership Inference and Memorization Assessment for LLMs
- Title(参考訳): (Token-Level)InfoRMIA:LLMのより強力なメンバーシップ推論とメモリ化評価
- Authors: Jiashu Tao, Reza Shokri,
- Abstract要約: 大規模言語モデル(LLM)は、ほぼすべての利用可能なデータに基づいてトレーニングされている。
プライバシを定量化する標準的な方法は、メンバシップ推論攻撃である。
本稿では、会員推論の原理的情報理論の定式化であるInfoRMIAを紹介する。
- 参考スコア(独自算出の注目度): 13.601386341584545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models are known to leak sensitive information, as they inevitably memorize (parts of) their training data. More alarmingly, large language models (LLMs) are now trained on nearly all available data, which amplifies the magnitude of information leakage and raises serious privacy risks. Hence, it is more crucial than ever to quantify privacy risk before the release of LLMs. The standard method to quantify privacy is via membership inference attacks, where the state-of-the-art approach is the Robust Membership Inference Attack (RMIA). In this paper, we present InfoRMIA, a principled information-theoretic formulation of membership inference. Our method consistently outperforms RMIA across benchmarks while also offering improved computational efficiency. In the second part of the paper, we identify the limitations of treating sequence-level membership inference as the gold standard for measuring leakage. We propose a new perspective for studying membership and memorization in LLMs: token-level signals and analyses. We show that a simple token-based InfoRMIA can pinpoint which tokens are memorized within generated outputs, thereby localizing leakage from the sequence level down to individual tokens, while achieving stronger sequence-level inference power on LLMs. This new scope rethinks privacy in LLMs and can lead to more targeted mitigation, such as exact unlearning.
- Abstract(参考訳): 機械学習モデルは、トレーニングデータを必然的に記憶(一部)するため、機密情報を漏洩することが知られている。
さらに注意すべきは、大きな言語モデル(LLM)が、ほぼすべての利用可能なデータでトレーニングされていることだ。
したがって、LCMのリリース前にプライバシーリスクを定量化することは、これまで以上に重要である。
プライバシを定量化する標準的な方法は、メンバシップ推論アタック(メンバシップ推論アタック)であり、最先端のアプローチはロバストメンバーシップ推論アタック(RMIA)である。
本稿では,メンバーシップ推論の原理的情報理論定式化であるInfoRMIAについて述べる。
提案手法はベンチマークでRMIAを常に上回り,計算効率も向上した。
本論文の第2部では, シークエンスレベルのメンバシップ推論を, リークを計測するためのゴールドスタンダードとして扱うことの限界を明らかにした。
LLMにおけるメンバシップと記憶の新たな視点として,トークンレベルの信号と分析を提案する。
単純なトークンベースのInfoRMIAは、どのトークンが生成された出力に記憶されているかをピンポイントで特定でき、これにより、LLM上でより強いシーケンスレベルの推論能力を実現しつつ、シーケンスレベルのリークを個々のトークンにローカライズすることができる。
この新たなスコープは、LLMのプライバシを再考し、正確なアンラーニングなど、よりターゲットを絞った緩和につながる可能性がある。
関連論文リスト
- Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文 参考訳(メタデータ) (2025-02-11T08:05:56Z) - Decoding Secret Memorization in Code LLMs Through Token-Level Characterization [6.92858396995673]
コード大言語モデル(LLM)は、プログラムコードの生成、理解、操作において顕著な能力を示した。
LLMは必然的に機密情報の記憶につながり、深刻なプライバシーリスクを生じさせる。
トークン確率に基づいて,コードLLMが生成した実・偽の秘密を特徴付ける新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T14:39:24Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods [56.073335779595475]
本稿ではReCaLL(Relative Conditional Log-Likelihood)を提案する。
実験の結果,非メンバープレフィックスの条件付きメンバーデータは,非メンバーデータと比較してログライクな傾向が著しく低下することがわかった。
我々は総合的な実験を行い、ReCaLLがWikiMIAデータセット上で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-06-23T00:23:13Z) - Mitigating Approximate Memorization in Language Models via Dissimilarity
Learned Policy [0.0]
大規模言語モデル(LLM)は大量のデータに基づいて訓練される。
LLMは、トレーニングデータの一部を記憶し、相手が適切にプロンプトすると、それらのデータを冗長に出力することを示した。
論文 参考訳(メタデータ) (2023-05-02T15:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。