論文の概要: Entropy-Memorization Law: Evaluating Memorization Difficulty of Data in LLMs
- arxiv url: http://arxiv.org/abs/2507.06056v1
- Date: Tue, 08 Jul 2025 14:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.238827
- Title: Entropy-Memorization Law: Evaluating Memorization Difficulty of Data in LLMs
- Title(参考訳): エントロピー記憶法:LLMにおけるデータの記憶困難性の評価
- Authors: Yizhan Huang, Zhe Yang, Meifang Chen, Jianping Zhang, Michael R. Lyu,
- Abstract要約: LLM(Large Language Models)は、トレーニングデータの一部を記憶することが知られており、適切な指示を下すと、時には冗長な内容が再現される。
本稿では,データエントロピーが記憶スコアと線形に相関していることを示すエントロピー記憶法を提案する。
エントロピー記憶法(Entropy-Memorization Law)の発見と同じ戦略を採用することで、トレーニングとテストデータの区別をシンプルかつ効果的に行うことができる。
- 参考スコア(独自算出の注目度): 30.55956806927529
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are known to memorize portions of their training data, sometimes reproducing content verbatim when prompted appropriately. In this work, we investigate a fundamental yet under-explored question in the domain of memorization: How to characterize memorization difficulty of training data in LLMs? Through empirical experiments on OLMo, a family of open models, we present the Entropy-Memorization Law. It suggests that data entropy is linearly correlated with memorization score. Moreover, in a case study of memorizing highly randomized strings, or "gibberish", we observe that such sequences, despite their apparent randomness, exhibit unexpectedly low empirical entropy compared to the broader training corpus. Adopting the same strategy to discover Entropy-Memorization Law, we derive a simple yet effective approach to distinguish training and testing data, enabling Dataset Inference (DI).
- Abstract(参考訳): LLM(Large Language Models)は、トレーニングデータの一部を記憶することが知られており、適切な指示を下すと、時には冗長な内容が再現される。
本研究では,LLMにおけるトレーニングデータの記憶の難しさを如何に特徴付けるかという,記憶の領域における基本的な疑問について考察する。
オープンモデルの族であるOLMoに関する経験的な実験を通じて、エントロピー記憶法(Entropy-Memorization Law)を提示する。
これは,データエントロピーが記憶スコアと線形に相関していることを示唆している。
さらに、高度にランダム化された文字列を記憶するケーススタディ(gibberish)では、このようなシーケンスは、見かけのランダムさにもかかわらず、より広いトレーニングコーパスに比べて予期しないほど低い経験的エントロピーを示す。
エントロピー記憶法(Entropy-Memorization Law)の発見と同じ戦略を採用することで、トレーニングとテストデータを区別し、データセット推論(DI)を可能にする、シンプルかつ効果的なアプローチが導出されます。
関連論文リスト
- Memorization or Interpolation ? Detecting LLM Memorization through Input Perturbation Analysis [8.725781605542675]
大規模言語モデル(LLM)は,大規模なデータセットのトレーニングを通じて,優れたパフォーマンスを実現する。
LLMは、真の一般化ではなく、トレーニングデータの冗長な再現のような振る舞いを示すことができる。
本稿では, LLMにおける暗記検出のための新しい手法であるPEARLを紹介する。
論文 参考訳(メタデータ) (2025-05-05T20:42:34Z) - A Geometric Framework for Understanding Memorization in Generative Models [11.263296715798374]
近年の研究では、深層生成モデルにより、デプロイ時にトレーニングデータポイントを記憶・再生することが可能であることが示されている。
これらの知見は、特に暗記によって引き起こされる法的およびプライバシー上のリスクを考慮して、生成モデルのユーザビリティを疑問視する。
本稿では, 多様体の暗記仮説(MMH)を, 暗記を推論する明快な言語として活用する幾何学的枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-31T18:09:01Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods [56.073335779595475]
本稿ではReCaLL(Relative Conditional Log-Likelihood)を提案する。
実験の結果,非メンバープレフィックスの条件付きメンバーデータは,非メンバーデータと比較してログライクな傾向が著しく低下することがわかった。
我々は総合的な実験を行い、ReCaLLがWikiMIAデータセット上で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-06-23T00:23:13Z) - Mitigating Approximate Memorization in Language Models via Dissimilarity
Learned Policy [0.0]
大規模言語モデル(LLM)は大量のデータに基づいて訓練される。
LLMは、トレーニングデータの一部を記憶し、相手が適切にプロンプトすると、それらのデータを冗長に出力することを示した。
論文 参考訳(メタデータ) (2023-05-02T15:53:28Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - Finding Memo: Extractive Memorization in Constrained Sequence Generation
Tasks [12.478605921259403]
記憶化は、ニューラルネットワーク翻訳(NMT)のようないくつかの制約付き自然言語生成(NLG)タスクに挑戦する。
制約付きシーケンス生成タスクにおける抽出記憶のための,新しい安価なアルゴリズムを提案する。
我々は,同じモデルから記憶されたサンプルの非記憶翻訳を抽出する簡単なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-24T03:01:52Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Understanding Memorization from the Perspective of Optimization via
Efficient Influence Estimation [54.899751055620904]
本研究では,実データ(実データ)とランダムラベル(ランダムデータ)のデータに対する,ターンオーバードロップアウトによる暗記現象,影響と暗記を効率的に推定する手法について検討する。
i) 実データと乱データの両方において、簡単な例(例えば、実データ)と難しい例(例えば、乱データ)の最適化は、ネットワークによって同時に行われる。
論文 参考訳(メタデータ) (2021-12-16T11:34:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。