論文の概要: LLMs Can Leak Training Data But Do They Want To? A Propensity-Aware Evaluation of Memorization in LLMs
- arxiv url: http://arxiv.org/abs/2606.06286v1
- Date: Thu, 04 Jun 2026 15:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.89873
- Title: LLMs Can Leak Training Data But Do They Want To? A Propensity-Aware Evaluation of Memorization in LLMs
- Title(参考訳): LLMはトレーニングデータを漏洩するが、それを望んでいるか? : LLMにおける記憶の重要度を意識した評価
- Authors: Gianluca Barmina, Peter Schneider-Kamp, Lukas Galke Poech,
- Abstract要約: 本稿では,暗記評価のための固有性を考慮したフレームワークであるPropMeを紹介する。
Infini-gram上に構築された軽量なトレースパイプラインであるSimpleTraceも導入しています。
以上の結果から,暗記監査は最悪の抽出可能性と通常の漏洩確率の両方を報告すべきであることが示唆された。
- 参考スコア(独自算出の注目度): 2.475558262989392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can reproduce training data, but existing memorization evaluations mostly measure whether models can be forced to do so, rather than whether they do so under ordinary use. We introduce PropMe, a propensity-aware framework for memorization evaluation that contrasts prefix-based capability attacks with non-adversarial evaluations. We propose a metric transformation that, applied to existing functions, allows to create propensity metrics. We further introduce SimpleTrace, a lightweight tracing pipeline built on infini-gram that deterministically attributes model generations to large-scale training corpora and computes verbatim, near-verbatim, and propensity-transformed memorization metrics. Evaluating two fully-open models: Comma and DFM Decoder on two datasets: Common Pile and Dynaword in two languages, we find a consistent gap between capability and propensity: prefix attacks elicit substantially stronger memorization signals than generic or dataset-specific prompts, while propensity scores remain low overall. Thus, the models can reveal training data when directly elicited, but rarely do so in more common non-adversarial settings. We also find that DFM Decoder, which is continually pre-trained from Comma, exhibits reduced memorization and memorization propensity for Common Pile, confirming that memorization capability can decrease when later training emphasizes partially different data. Our results suggest, and we encourage, that memorization audits should report both worst-case extractability and ordinary leakage propensity in order to have a more comprehensive view of this phenomenon.
- Abstract(参考訳): 大規模言語モデルはトレーニングデータを再現することができるが、既存の暗記評価は、通常使用しているかどうかではなく、モデルがそれを強制できるかどうかを主に測定する。
PropMeは,プレフィックスベースの能力攻撃と非攻撃的評価とを対比した記憶度評価フレームワークである。
本稿では,既存関数に適用した距離変換を提案する。
Infini-gram上に構築された軽量なトレースパイプラインであるSimpleTraceについても紹介する。
コマ(Comma)とDynaword(Dynaword)の2つのデータセットに対するDFMデコーダ(Decoder)の2つの完全オープンモデルを評価する。2言語における共通パイル(Common Pile)とDynaword(Dynaword)は、機能と妥当性の間に一貫したギャップがある。
したがって、モデルは直接誘引された時にトレーニングデータを明らかにすることができるが、より一般的な非敵の設定では、そうすることは滅多にない。
また,コマから継続的に事前学習されたDFMデコーダは,コモンパイルにおける記憶量の減少と記憶精度の低下を示し,後続のトレーニングが部分的に異なるデータを強調した場合に記憶能力が低下することを確認する。
以上の結果から,暗記監査は,この現象をより包括的に把握するために,最悪の症例抽出可能性と通常の漏洩確率の両方を報告すべきであることが示唆された。
関連論文リスト
- Prior Aware Memorization: An Efficient Metric for Distinguishing Memorization from Generalization in Large Language Models [9.915106680104268]
LLM(Large Language Models)からのトレーニングデータ漏洩は、プライバシ、セキュリティ、著作権コンプライアンスに関する深刻な懸念を引き起こす。
既存の暗記計測手法はしばしばこれらの現象を説明し、共通パターンの一般化から生じたときでも、アウトプットを暗記している。
この研究は、LLMにおける真の記憶を識別するための理論的基礎と軽量でトレーニング不要な基準である、事前認識記憶を導入している。
論文 参考訳(メタデータ) (2026-02-21T06:31:17Z) - Memorization or Interpolation ? Detecting LLM Memorization through Input Perturbation Analysis [8.725781605542675]
大規模言語モデル(LLM)は,大規模なデータセットのトレーニングを通じて,優れたパフォーマンスを実現する。
LLMは、真の一般化ではなく、トレーニングデータの冗長な再現のような振る舞いを示すことができる。
本稿では, LLMにおける暗記検出のための新しい手法であるPEARLを紹介する。
論文 参考訳(メタデータ) (2025-05-05T20:42:34Z) - Memorize or Generalize? Evaluating LLM Code Generation with Code Rewriting [54.48306552577881]
大規模な言語モデル(LLM)は、主にメモリ化(トレーニングデータの大きな部分を複製または再利用する)と一般化(Generalization)を併用している、と我々は主張する。
既存の評価は、表面/構造的類似性を無視し、繰り返しコードの良質な再利用を有害なリコールと記憶タスクの正しさで混同する。
そこで我々は,2つの信号を組み合わせた正規化スコアである覚書リスク指標(MRI)を提案する。 (i) モデルが元の地平解とどのように類似しているか, (ii) 元のタスクから書き換えされたタスクにどの程度の性能が低下するか。
論文 参考訳(メタデータ) (2025-03-04T05:39:24Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。
ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。
本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文 参考訳(メタデータ) (2024-04-23T15:49:37Z) - Quantifying and Analyzing Entity-level Memorization in Large Language
Models [4.59914731734176]
大規模言語モデル(LLM)は、トレーニングデータを記憶できることが証明されている。
記憶から生じるプライバシーリスクが注目されている。
実世界のシナリオに近い条件やメトリクスで記憶を定量化するための,詳細なエンティティレベルの定義を提案する。
論文 参考訳(メタデータ) (2023-08-30T03:06:47Z) - Emergent and Predictable Memorization in Large Language Models [23.567027014457775]
メモリ化、あるいはトレーニングデータから全シーケンスを出力する大規模言語モデルの傾向は、安全に言語モデルをデプロイする上で重要な関心事である。
我々は,大規模モデルのフルトレインタイム前にどのシーケンスを記憶するかを,低速トライアルの実行時の記憶挙動を外挿することによって予測する。
モデルとデータ間のメモリ化スコアの分布に関する新たな発見を提供する。
論文 参考訳(メタデータ) (2023-04-21T17:58:31Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。