論文の概要: Rethinking Memorization Measures and their Implications in Large Language Models
- arxiv url: http://arxiv.org/abs/2507.14777v1
- Date: Sun, 20 Jul 2025 00:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.047004
- Title: Rethinking Memorization Measures and their Implications in Large Language Models
- Title(参考訳): 覚書化対策の再考と大規模言語モデルにおける意味
- Authors: Bishwamittra Ghosh, Soumi Das, Qinyuan Wu, Mohammad Aflah Khan, Krishna P. Gummadi, Evimaria Terzi, Deepak Garg,
- Abstract要約: 言語を最適に学習する際,暗記が避けられるか,暗記によって引き起こされるプライバシーの脅威が誇張されているか否かを検討する。
既存のプライバシー重視の暗記(recollection-based)と反実的暗記( counterfactual memorization)、および新たに提案された文脈記憶(contextual memorization)を再検討する。
6つのファミリーと異なるエントロピーを持つ複数の形式言語から18のLLMを実験したところ、(a)頻繁な文字列の暗記順序に相反する暗記法、(b)言語の最適学習はトレーニング文字列の部分的暗記を回避することができず、(c)学習の改善は文脈的および反事実的暗記を減少させるが、再現性を高める。
- 参考スコア(独自算出の注目度): 14.04812038444537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concerned with privacy threats, memorization in LLMs is often seen as undesirable, specifically for learning. In this paper, we study whether memorization can be avoided when optimally learning a language, and whether the privacy threat posed by memorization is exaggerated or not. To this end, we re-examine existing privacy-focused measures of memorization, namely recollection-based and counterfactual memorization, along with a newly proposed contextual memorization. Relating memorization to local over-fitting during learning, contextual memorization aims to disentangle memorization from the contextual learning ability of LLMs. Informally, a string is contextually memorized if its recollection due to training exceeds the optimal contextual recollection, a learned threshold denoting the best contextual learning without training. Conceptually, contextual recollection avoids the fallacy of recollection-based memorization, where any form of high recollection is a sign of memorization. Theoretically, contextual memorization relates to counterfactual memorization, but imposes stronger conditions. Memorization measures differ in outcomes and information requirements. Experimenting on 18 LLMs from 6 families and multiple formal languages of different entropy, we show that (a) memorization measures disagree on memorization order of varying frequent strings, (b) optimal learning of a language cannot avoid partial memorization of training strings, and (c) improved learning decreases contextual and counterfactual memorization but increases recollection-based memorization. Finally, (d) we revisit existing reports of memorized strings by recollection that neither pose a privacy threat nor are contextually or counterfactually memorized.
- Abstract(参考訳): プライバシー上の脅威に関して、LLMの記憶は特に学習にとって望ましくないものと見なされることが多い。
本稿では,言語を最適に学習する際,暗記が避けられるか,暗記によるプライバシーの脅しが誇張されているかを検討する。
この目的のために、我々は、新たに提案された文脈記憶とともに、既存のプライバシー重視の記憶化対策、すなわち、記憶の保存と反事実記憶を再検討する。
学習中の局所的な過度な記憶と関連づけることで,LLMの文脈学習能力から記憶を解き放つことを目的としている。
直観的には、訓練による記憶が最適な文脈的記憶(学習なしで最高の文脈的学習を示す学習しきい値)を超えた場合、文字列は文脈的に記憶される。
概念的には、文脈的回想は回想に基づく回想の誤認を回避し、回想の如何なる形でも回想の兆候である。
理論的には、文脈記憶は反事実記憶に関係するが、強い条件を課す。
覚書化対策は、結果や情報要件によって異なる。
異なるエントロピーを持つ6つの家系および複数の形式言語からの18のLLMについての実験を行った。
(a)頻繁な文字列の暗記順序に反する暗記措置
b) 言語の最適学習は、訓練文字列の部分記憶を避けることができず、
(c) 学習改善は文脈記憶と反ファクト記憶を減少させるが, 記憶を反映した記憶を増大させる。
最後に
(d)プライバシーの脅しも、文脈的にも、あるいは事実的にも記憶されないという、記憶された文字列の既存の報告を再考する。
関連論文リスト
- Memorization Sinks: Isolating Memorization during LLM Training [20.682505625638203]
大規模な言語モデルは、繰り返しのシーケンスを記憶し、プライバシと著作権の懸念を訴えることに影響を受けやすい。
本稿では,設計による記憶の分離を促進するMemSinksの新しいパラダイムを提案する。
これは、同時一般化と分離が達成可能であることを示す実データに関する最初の概念実証である。
論文 参考訳(メタデータ) (2025-07-14T05:23:27Z) - Unlocking Memorization in Large Language Models with Dynamic Soft Prompting [66.54460367290146]
大規模言語モデル(LLM)は、要約、質問応答、翻訳などの自然言語処理(NLP)タスクに革命をもたらした。
LLMはトレーニングデータを記憶する傾向があるため、重大なセキュリティリスクを生じ、プライバシー侵害や著作権侵害につながる可能性がある。
動的,プレフィックスに依存したソフトプロンプトを用いたLLM記憶推定手法を提案する。
論文 参考訳(メタデータ) (2024-09-20T18:56:32Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Mitigating Approximate Memorization in Language Models via Dissimilarity
Learned Policy [0.0]
大規模言語モデル(LLM)は大量のデータに基づいて訓練される。
LLMは、トレーニングデータの一部を記憶し、相手が適切にプロンプトすると、それらのデータを冗長に出力することを示した。
論文 参考訳(メタデータ) (2023-05-02T15:53:28Z) - Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。
具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。
我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文 参考訳(メタデータ) (2022-10-31T17:57:55Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。