論文の概要: MemLens: Uncovering Memorization in LLMs with Activation Trajectories
- arxiv url: http://arxiv.org/abs/2509.20909v1
- Date: Thu, 25 Sep 2025 08:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.80013
- Title: MemLens: Uncovering Memorization in LLMs with Activation Trajectories
- Title(参考訳): MemLens: 活性化軌道を持つLDMにおける記憶の発見
- Authors: Zirui He, Haiyan Zhao, Ali Payani, Mengnan du,
- Abstract要約: 生成中の数値トークンの確率軌跡を解析してメモリ化を検出するために,MemLensを提案する。
提案手法では, 汚染試料はショートカットの挙動を示し, 信頼性の高い解答にロックする。
汚染された試料とクリーンな試料は, 別々に分離された推理軌道を示す。
- 参考スコア(独自算出の注目度): 39.5728313604839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are commonly evaluated on challenging benchmarks such as AIME and Math500, which are susceptible to contamination and risk of being memorized. Existing detection methods, which primarily rely on surface-level lexical overlap and perplexity, demonstrate low generalization and degrade significantly when encountering implicitly contaminated data. In this paper, we propose MemLens (An Activation Lens for Memorization Detection) to detect memorization by analyzing the probability trajectories of numeric tokens during generation. Our method reveals that contaminated samples exhibit ``shortcut'' behaviors, locking onto an answer with high confidence in the model's early layers, whereas clean samples show more gradual evidence accumulation across the model's full depth. We observe that contaminated and clean samples exhibit distinct and well-separated reasoning trajectories. To further validate this, we inject carefully designed samples into the model through LoRA fine-tuning and observe the same trajectory patterns as in naturally contaminated data. These results provide strong evidence that MemLens captures genuine signals of memorization rather than spurious correlations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一般的に、汚染や暗記されるリスクに敏感な、AIMEやMath500のような挑戦的なベンチマークで評価される。
既存の検出方法は、主に表面レベルの語彙重なりとパープレキシティに依存するが、暗黙的に汚染されたデータに遭遇すると、一般化が低く、著しく低下することを示す。
本稿では, 生成中の数値トークンの確率軌跡を解析し, 記憶検出用アクティブレンズであるMemLensを提案する。
提案手法では, 汚染されたサンプルは「ショートカット」な振る舞いを示し, モデルの初期層に対する高い信頼度で解答をロックする一方, クリーンなサンプルはモデルの全深度にわたって徐々に蓄積された証拠を示す。
汚染された試料とクリーンな試料は, 別々に分離された推理軌道を示す。
さらにこれを検証するために,LoRAの微調整によりモデルに慎重に設計したサンプルを注入し,自然に汚染されたデータと同じ軌道パターンを観察する。
これらの結果は、MemLensが刺激的な相関ではなく、真の記憶のシグナルを捉えているという強い証拠を与える。
関連論文リスト
- BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。
本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-07-14T17:13:06Z) - Detecting Stealthy Backdoor Samples based on Intra-class Distance for Large Language Models [12.519879298717104]
本稿では,参照フィルタとTfidf-Clustering機構に基づく,ステルスなバックドアサンプル検出手法を提案する。
2つの機械翻訳データセットと1つのQAデータセットの実験では、RFTCがバックドア検出とモデルパフォーマンスでベースラインを上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-29T02:49:29Z) - A Closer Look on Memorization in Tabular Diffusion Model: A Data-Centric Perspective [15.33961902853653]
生成したサンプルがレプリカとしてフラグ付けされている回数に基づいて,実サンプル毎のメモリ化を定量化する。
経験的分析により,暗記回数の重み付き分布が明らかとなった。
モデルに依存しない2段階緩和法であるDynamicCutを提案する。
論文 参考訳(メタデータ) (2025-05-28T13:06:00Z) - Redistribute Ensemble Training for Mitigating Memorization in Diffusion Models [31.92526915009259]
拡散モデルは非常に高品質なサンプルを生成する能力で知られている。
最近のメモリ緩和法は、主にテキストモダリティの文脈における問題に対処している。
本稿では,視覚的モダリティの観点からの拡散モデルの新たな手法を提案する。
論文 参考訳(メタデータ) (2025-02-13T15:56:44Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。