論文の概要: Memories Retrieved from Many Paths: A Multi-Prefix Framework for Robust Detection of Training Data Leakage in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.20799v1
- Date: Tue, 25 Nov 2025 19:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.830758
- Title: Memories Retrieved from Many Paths: A Multi-Prefix Framework for Robust Detection of Training Data Leakage in Large Language Models
- Title(参考訳): 複数経路からの記憶:大規模言語モデルにおける学習データ漏洩のロバスト検出のためのマルチプレフィックスフレームワーク
- Authors: Trung Cuong Dang, David Mohaisen,
- Abstract要約: 大規模なコーパスでトレーニングされた大規模な言語モデルは、トレーニングデータの冗長な記憶がちで、プライバシーと著作権の重大なリスクが生じる。
マルチメモリ化という新しいフレームワークを紹介します。
我々は、外部の敵探索がそれを引き起こす異なる接頭辞のターゲット数を特定することができれば、シーケンスを記憶として定義することでこれを定量化する。
- 参考スコア(独自算出の注目度): 13.249913291727042
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models, trained on massive corpora, are prone to verbatim memorization of training data, creating significant privacy and copyright risks. While previous works have proposed various definitions for memorization, many exhibit shortcomings in comprehensively capturing this phenomenon, especially in aligned models. To address this, we introduce a novel framework: multi-prefix memorization. Our core insight is that memorized sequences are deeply encoded and thus retrievable via a significantly larger number of distinct prefixes than non-memorized content. We formalize this by defining a sequence as memorized if an external adversarial search can identify a target count of distinct prefixes that elicit it. This framework shifts the focus from single-path extraction to quantifying the robustness of a memory, measured by the diversity of its retrieval paths. Through experiments on open-source and aligned chat models, we demonstrate that our multi-prefix definition reliably distinguishes memorized from non-memorized data, providing a robust and practical tool for auditing data leakage in LLMs.
- Abstract(参考訳): 大規模なコーパスでトレーニングされた大規模な言語モデルは、トレーニングデータの冗長な記憶がちで、プライバシーと著作権の重大なリスクが生じる。
過去の研究では、記憶に関する様々な定義が提案されているが、この現象を包括的に捉えることには欠点がある。
この問題に対処するために、我々は新しいフレームワーク、マルチプレフィックス・メモリ化を導入する。
我々の中核的な洞察は、記憶されたシーケンスは深くエンコードされており、非記憶されたコンテンツよりもはるかに多くの異なるプレフィックスを通して検索可能であるということである。
我々は、外部の敵探索がそれを引き起こす異なる接頭辞のターゲット数を特定することができれば、シーケンスを記憶として定義することでこれを形式化する。
このフレームワークは、単一のパス抽出から、その検索パスの多様性によって測定されたメモリの頑健さの定量化へと焦点をシフトする。
オープンソースおよびアライメントチャットモデルの実験を通じて、マルチプレフィックス定義が記憶されていないデータと確実に区別できることを示し、LLMにおけるデータの漏洩を監査するための堅牢で実用的なツールを提供する。
関連論文リスト
- Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。
ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。
本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文 参考訳(メタデータ) (2024-04-23T15:49:37Z) - ROME: Memorization Insights from Text, Logits and Representation [17.458840481902644]
本稿では、トレーニングデータの直接処理をバイパスするROMEという革新的な手法を提案する。
具体的には、コンテキスト非依存、従来型、事実の3つの異なるタイプに分類されるデータセットを選択します。
そこで本研究では,生成したテキストのロジットと表現を調べることで,記憶されたサンプルと記憶されていないサンプルの相違に着目した。
論文 参考訳(メタデータ) (2024-03-01T13:15:30Z) - SoK: Memorization in General-Purpose Large Language Models [25.448127387943053]
大規模言語モデル(LLM)は、無数のアプリケーションが開発中で、目覚ましいペースで進んでいる。
LLMはトレーニングデータの短い秘密を記憶できるだけでなく、さまざまな方法でテキストで表現できる事実や書体スタイルといった概念を記憶することもできる。
本稿では,文章,事実,アイデア,アルゴリズム,書式,分布特性,アライメント目標を網羅したLLMにおける記憶のための分類法を提案する。
論文 参考訳(メタデータ) (2023-10-24T14:25:53Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Quantifying and Analyzing Entity-level Memorization in Large Language
Models [4.59914731734176]
大規模言語モデル(LLM)は、トレーニングデータを記憶できることが証明されている。
記憶から生じるプライバシーリスクが注目されている。
実世界のシナリオに近い条件やメトリクスで記憶を定量化するための,詳細なエンティティレベルの定義を提案する。
論文 参考訳(メタデータ) (2023-08-30T03:06:47Z) - Mitigating Approximate Memorization in Language Models via Dissimilarity
Learned Policy [0.0]
大規模言語モデル(LLM)は大量のデータに基づいて訓練される。
LLMは、トレーニングデータの一部を記憶し、相手が適切にプロンプトすると、それらのデータを冗長に出力することを示した。
論文 参考訳(メタデータ) (2023-05-02T15:53:28Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。