論文の概要: Learning the Signature of Memorization in Autoregressive Language Models
- arxiv url: http://arxiv.org/abs/2604.03199v1
- Date: Fri, 03 Apr 2026 17:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.551231
- Title: Learning the Signature of Memorization in Autoregressive Language Models
- Title(参考訳): 自己回帰型言語モデルにおける記憶のシグナチャの学習
- Authors: David Ilić, Kostadin Cvejoski, David Stanojević, Evgeny Grigorenko,
- Abstract要約: 我々は,任意のコーパス上の任意のモデルを微調整することで,ラベル付きデータを無制限に生成する,最初のトランスファー可能な学習攻撃を導入する。
これにより、シャドーモデルボトルネックが取り除かれ、深層学習時代へのメンバシップ推論がもたらされる。
- 参考スコア(独自算出の注目度): 3.6048665052465663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: All prior membership inference attacks for fine-tuned language models use hand-crafted heuristics (e.g., loss thresholding, Min-K\%, reference calibration), each bounded by the designer's intuition. We introduce the first transferable learned attack, enabled by the observation that fine-tuning any model on any corpus yields unlimited labeled data, since membership is known by construction. This removes the shadow model bottleneck and brings membership inference into the deep learning era: learning what matters rather than designing it, with generalization through training diversity and scale. We discover that fine-tuning language models produces an invariant signature of memorization detectable across architectural families and data domains. We train a membership inference classifier exclusively on transformer-based models. It transfers zero-shot to Mamba (state-space), RWKV-4 (linear attention), and RecurrentGemma (gated recurrence), achieving 0.963, 0.972, and 0.936 AUC respectively. Each evaluation combines an architecture and dataset never seen during training, yet all three exceed performance on held-out transformers (0.908 AUC). These four families share no computational mechanisms, their only commonality is gradient descent on cross-entropy loss. Even simple likelihood-based methods exhibit strong transfer, confirming the signature exists independently of the detection method. Our method, Learned Transfer MIA (LT-MIA), captures this signal most effectively by reframing membership inference as sequence classification over per-token distributional statistics. On transformers, LT-MIA achieves 2.8$\times$ higher TPR at 0.1\% FPR than the strongest baseline. The method also transfers to code (0.865 AUC) despite training only on natural language texts. Code and trained classifier available at https://github.com/JetBrains-Research/learned-mia.
- Abstract(参考訳): 微調整言語モデルに対する以前のメンバーシップ推論攻撃は、手作りのヒューリスティック(例えば、損失閾値、Min-K\%、参照キャリブレーション)を使用しており、それぞれ設計者の直感に縛られている。
本報告では,任意のコーパス上の任意のモデルを微調整すると,構成によってメンバシップが知られているため,ラベル付きデータを無制限に生成する,という観察により,最初のトランスファー可能な学習攻撃を導入する。
これにより、シャドウモデルボトルネックが排除され、メンバーシップ推論がディープラーニング時代にもたらされる。
微調整言語モデルは、アーキテクチャファミリやデータドメイン間で検出可能な記憶の不変シグネチャを生成する。
我々は、変圧器モデルのみに基づく会員推論分類器を訓練する。
ゼロショットをMamba(状態空間)、RWKV-4(線形注意)、RecurrentGemma(ゲート再発)に転送し、それぞれ0.963、0.972、0.936 AUCを達成している。
それぞれの評価は、トレーニング中に見たことのないアーキテクチャとデータセットを組み合わせたものだが、いずれもホールドアウトトランス(0.908 AUC)のパフォーマンスを上回っている。
これら4つの族は計算機構を共有しておらず、その唯一の共通性は交叉エントロピー損失の勾配降下である。
単純な可能性に基づく方法でさえ強い伝達を示し、検出法とは独立に署名が存在することを確認する。
提案手法であるLearned Transfer MIA (LT-MIA) は,この信号を最も効果的に捉える。
変換器では、LT-MIAは最強ベースラインよりも0.1 % FPRで2.8$\times$高いTPRを達成する。
この方法は、自然言語テキストのみの訓練にもかかわらず、コード(0.865 AUC)に転送する。
コードとトレーニングされた分類器はhttps://github.com/JetBrains-Research/learned-miaで入手できる。
関連論文リスト
- Grokked Models are Better Unlearners [5.8757712547216485]
グラクテッドチェックポイントから始めると、ずっと効率的に忘れられる。
ポストグロキングモデルは、左行と左行と左行の間の勾配の調整を減らして、よりモジュラーな表現を学習する。
論文 参考訳(メタデータ) (2025-12-03T04:35:49Z) - On the Impossibility of Retrain Equivalence in Machine Unlearning [43.39599739799909]
機械学習は、モデルの出力に関する特定のトレーニングデータの"影響"を選択的に除去しようとする。
理想的なゴールは、保持されたデータのみに基づいて、スクラッチからトレーニングされたモデルと同一のトレーニング等価性である。
現代のパイプラインは、しばしば多段階のトレーニングを伴い、各ステージは異なるデータ分散と目的を持っている。
論文 参考訳(メタデータ) (2025-10-18T19:58:31Z) - Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - Training on Fake Labels: Mitigating Label Leakage in Split Learning via Secure Dimension Transformation [10.404379188947383]
ふたつのパーティ分割学習は、ラベル推論攻撃を生き残ることが証明されている。
そこで本稿では,既存のラベル推論攻撃を防御する二者分割学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T09:25:21Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Unrolling SGD: Understanding Factors Influencing Machine Unlearning [17.6607904333012]
機械学習は、デプロイされた機械学習モデルがトレーニングデータポイントの1つを忘れるプロセスである。
まず、近似アンラーニングのアプローチとメトリクスを分類する。
検証誤差(L2差)、すなわち、ほとんど学習されていないモデルの重みと鼻再訓練されたモデルのL2差を同定する。
論文 参考訳(メタデータ) (2021-09-27T23:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。