論文の概要: The Unreasonable Ineffectiveness of Nucleus Sampling on Mitigating Text Memorization
- arxiv url: http://arxiv.org/abs/2408.16345v1
- Date: Thu, 29 Aug 2024 08:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 14:32:51.666731
- Title: The Unreasonable Ineffectiveness of Nucleus Sampling on Mitigating Text Memorization
- Title(参考訳): テキスト記憶の誤りに対する核サンプリングの不可逆的効果
- Authors: Luka Borec, Philipp Sadler, David Schlangen,
- Abstract要約: 大規模言語モデル(LLM)の核サンプリング時のテキスト記憶挙動を解析した。
核の大きさが大きくなると、記憶力は緩やかに低下する。
モデルが"ハード"メモリ化に関与していない場合でも、"ソフト"メモリ化を表示できる。
- 参考スコア(独自算出の注目度): 15.348047288817478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work analyses the text memorization behavior of large language models (LLMs) when subjected to nucleus sampling. Stochastic decoding methods like nucleus sampling are typically applied to overcome issues such as monotonous and repetitive text generation, which are often observed with maximization-based decoding techniques. We hypothesize that nucleus sampling might also reduce the occurrence of memorization patterns, because it could lead to the selection of tokens outside the memorized sequence. To test this hypothesis we create a diagnostic dataset with a known distribution of duplicates that gives us some control over the likelihood of memorization of certain parts of the training data. Our analysis of two GPT-Neo models fine-tuned on this dataset interestingly shows that (i) an increase of the nucleus size reduces memorization only modestly, and (ii) even when models do not engage in "hard" memorization -- a verbatim reproduction of training samples -- they may still display "soft" memorization whereby they generate outputs that echo the training data but without a complete one-by-one resemblance.
- Abstract(参考訳): 本研究は,大規模言語モデル(LLM)の核サンプリング時のテキスト記憶挙動を解析する。
核サンプリングのような確率的復号法は、通常、最大化に基づく復号法でしばしば観察される単調なテキスト生成や反復的なテキスト生成のような問題を克服するために適用される。
核サンプリングは暗記配列以外のトークンの選択につながる可能性があるため、暗記パターンの発生を減少させる可能性があると仮定する。
この仮説をテストするために、重複の既知の分布を持つ診断データセットを作成し、トレーニングデータの特定の部分の記憶の可能性をある程度制御する。
このデータセットを微調整した2つのGPT-Neoモデルの解析は興味深い。
(i)核の大きさの増大は暗記のみを緩やかに減らし、
(ii)モデルが「ハード」な記憶(トレーニングサンプルの冗長な再現)に関与していない場合でも、トレーニングデータに類似した出力を生成するが、完全な1対1の類似性がないため、"ソフト"な記憶を表示する可能性がある。
関連論文リスト
- Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Finding Memo: Extractive Memorization in Constrained Sequence Generation
Tasks [12.478605921259403]
記憶化は、ニューラルネットワーク翻訳(NMT)のようないくつかの制約付き自然言語生成(NLG)タスクに挑戦する。
制約付きシーケンス生成タスクにおける抽出記憶のための,新しい安価なアルゴリズムを提案する。
我々は,同じモデルから記憶されたサンプルの非記憶翻訳を抽出する簡単なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-24T03:01:52Z) - Reducing Training Sample Memorization in GANs by Training with
Memorization Rejection [80.0916819303573]
本稿では,トレーニング中のトレーニングサンプルのほぼ重複する生成サンプルを拒否する学習手法であるリジェクション記憶法を提案する。
我々のスキームは単純で汎用的であり、任意のGANアーキテクチャに直接適用することができる。
論文 参考訳(メタデータ) (2022-10-21T20:17:50Z) - Measures of Information Reflect Memorization Patterns [53.71420125627608]
異なるニューロンの活性化パターンの多様性は、モデル一般化と記憶の反映であることを示す。
重要なことは、情報組織が記憶の2つの形態を指していることである。
論文 参考訳(メタデータ) (2022-10-17T20:15:24Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。