論文の概要: (Token-Level) InfoRMIA: Stronger Membership Inference and Memorization Assessment for LLMs
- arxiv url: http://arxiv.org/abs/2510.05582v2
- Date: Thu, 09 Oct 2025 10:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.566794
- Title: (Token-Level) InfoRMIA: Stronger Membership Inference and Memorization Assessment for LLMs
- Title(参考訳): (Token-Level)InfoRMIA:LLMのより強力なメンバーシップ推論とメモリ化評価
- Authors: Jiashu Tao, Reza Shokri,
- Abstract要約: 大規模言語モデル(LLM)は、ほぼすべての利用可能なデータに基づいてトレーニングされている。
プライバシを定量化する標準的な方法は、メンバシップ推論攻撃である。
本稿では、会員推論の原理的情報理論の定式化であるInfoRMIAを紹介する。
- 参考スコア(独自算出の注目度): 13.601386341584545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models are known to leak sensitive information, as they inevitably memorize (parts of) their training data. More alarmingly, large language models (LLMs) are now trained on nearly all available data, which amplifies the magnitude of information leakage and raises serious privacy risks. Hence, it is more crucial than ever to quantify privacy risk before the release of LLMs. The standard method to quantify privacy is via membership inference attacks, where the state-of-the-art approach is the Robust Membership Inference Attack (RMIA). In this paper, we present InfoRMIA, a principled information-theoretic formulation of membership inference. Our method consistently outperforms RMIA across benchmarks while also offering improved computational efficiency. In the second part of the paper, we identify the limitations of treating sequence-level membership inference as the gold standard for measuring leakage. We propose a new perspective for studying membership and memorization in LLMs: token-level signals and analyses. We show that a simple token-based InfoRMIA can pinpoint which tokens are memorized within generated outputs, thereby localizing leakage from the sequence level down to individual tokens, while achieving stronger sequence-level inference power on LLMs. This new scope rethinks privacy in LLMs and can lead to more targeted mitigation, such as exact unlearning.
- Abstract(参考訳): 機械学習モデルは、トレーニングデータを必然的に記憶(一部)するため、機密情報を漏洩することが知られている。
さらに注意すべきは、大きな言語モデル(LLM)が、ほぼすべての利用可能なデータでトレーニングされていることだ。
したがって、LCMのリリース前にプライバシーリスクを定量化することは、これまで以上に重要である。
プライバシを定量化する標準的な方法は、メンバシップ推論アタック(メンバシップ推論アタック)であり、最先端のアプローチはロバストメンバーシップ推論アタック(RMIA)である。
本稿では,メンバーシップ推論の原理的情報理論定式化であるInfoRMIAについて述べる。
提案手法はベンチマークでRMIAを常に上回り,計算効率も向上した。
本論文の第2部では, シークエンスレベルのメンバシップ推論を, リークを計測するためのゴールドスタンダードとして扱うことの限界を明らかにした。
LLMにおけるメンバシップと記憶の新たな視点として,トークンレベルの信号と分析を提案する。
単純なトークンベースのInfoRMIAは、どのトークンが生成された出力に記憶されているかをピンポイントで特定でき、これにより、LLM上でより強いシーケンスレベルの推論能力を実現しつつ、シーケンスレベルのリークを個々のトークンにローカライズすることができる。
この新たなスコープは、LLMのプライバシを再考し、正確なアンラーニングなど、よりターゲットを絞った緩和につながる可能性がある。
関連論文リスト
- What Hard Tokens Reveal: Exploiting Low-confidence Tokens for Membership Inference Attacks against Large Language Models [2.621142288968429]
メンバーシップ推論攻撃(MIA)は、特定のデータサンプルがモデルトレーニング/ファインチューニングデータセットに含まれるかどうかを判断しようとする。
低信頼(ハード)トークンに対するトークンレベルの確率をキャプチャする新しいメンバシップ推論手法を提案する。
ドメイン固有の医療データセットと汎用ベンチマークの両方の実験では、HT-MIAが7つの最先端MIAベースラインを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2026-01-27T22:31:10Z) - AttenMIA: LLM Membership Inference Attack through Attention Signals [8.170623979629953]
我々は,変圧器モデル内部の自己注意パターンを利用してメンバシップを推定する新しいMIAフレームワークであるAttenMIAを紹介する。
注意に基づく特徴は、特に重要な低偽陽性尺度の下で、一貫してベースラインを上回ります。
また,データ抽出フレームワークにおける他のメンバシップ推論攻撃を置き換えるためにAttenMIAを用いることで,技術状況よりも優れたデータ抽出攻撃を訓練できることを示す。
論文 参考訳(メタデータ) (2026-01-26T03:45:56Z) - PerProb: Indirectly Evaluating Memorization in Large Language Models [13.905375956316632]
LLM脆弱性を間接的に評価するためのラベルフリーフレームワークであるPerProbを提案する。
PerProbは、被害者モデルと敵対モデルによって生成されたデータ間の難易度と平均ログ確率の変化を評価する。
PerProbの有効性を5つのデータセットで評価し、さまざまなメモリ挙動とプライバシリスクを明らかにした。
論文 参考訳(メタデータ) (2025-12-16T17:10:01Z) - Retracing the Past: LLMs Emit Training Data When They Get Lost [18.852558767604823]
大規模言語モデルにおけるトレーニングデータの記憶は、プライバシーと著作権に関する重大な懸念を生じさせる。
本稿では,記憶されたデータを抽出するための基本的枠組みであるCIAについて紹介する。
論文 参考訳(メタデータ) (2025-10-27T03:48:24Z) - Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning [50.45435841411193]
Code Language Models (CLMs)は、機密性のあるトレーニングデータの意図しない記憶を示し、具体的に指示された場合に機密情報の冗長な再現を可能にする。
CodeEraserは、コードの構造的整合性と機能的正当性を保ちながら、センシティブな記憶されたセグメントを選択的にコードに解放する高度な変種である。
論文 参考訳(メタデータ) (2025-09-17T07:12:35Z) - Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文 参考訳(メタデータ) (2025-02-11T08:05:56Z) - Decoding Secret Memorization in Code LLMs Through Token-Level Characterization [6.92858396995673]
コード大言語モデル(LLM)は、プログラムコードの生成、理解、操作において顕著な能力を示した。
LLMは必然的に機密情報の記憶につながり、深刻なプライバシーリスクを生じさせる。
トークン確率に基づいて,コードLLMが生成した実・偽の秘密を特徴付ける新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T14:39:24Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods [56.073335779595475]
本稿ではReCaLL(Relative Conditional Log-Likelihood)を提案する。
実験の結果,非メンバープレフィックスの条件付きメンバーデータは,非メンバーデータと比較してログライクな傾向が著しく低下することがわかった。
我々は総合的な実験を行い、ReCaLLがWikiMIAデータセット上で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-06-23T00:23:13Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Mitigating Approximate Memorization in Language Models via Dissimilarity
Learned Policy [0.0]
大規模言語モデル(LLM)は大量のデータに基づいて訓練される。
LLMは、トレーニングデータの一部を記憶し、相手が適切にプロンプトすると、それらのデータを冗長に出力することを示した。
論文 参考訳(メタデータ) (2023-05-02T15:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。