論文の概要: Extending Memorization Dynamics in Pythia Models from Instance-Level Insights
- arxiv url: http://arxiv.org/abs/2506.12321v1
- Date: Sat, 14 Jun 2025 03:02:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.796785
- Title: Extending Memorization Dynamics in Pythia Models from Instance-Level Insights
- Title(参考訳): Pythiaモデルにおけるインスタンスレベルインサイトからの記憶のダイナミクスの拡張
- Authors: Jie Zhang, Qinghua Zhao, Lei Li, Chi-ho Lin,
- Abstract要約: 本稿では, Pythia モデルファミリーの様々なスケールおよびトレーニングステップにおける記憶の詳細な解析について述べる。
粒度の計測値を用いて、モデルアーキテクチャ、データ特性、摂動が記憶パターンにどのように影響するかを検討する。
- 参考スコア(独自算出の注目度): 8.476099189609565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have demonstrated a remarkable ability for verbatim memorization. While numerous works have explored factors influencing model memorization, the dynamic evolution memorization patterns remains underexplored. This paper presents a detailed analysis of memorization in the Pythia model family across varying scales and training steps under prefix perturbations. Using granular metrics, we examine how model architecture, data characteristics, and perturbations influence these patterns. Our findings reveal that: (1) as model scale increases, memorization expands incrementally while efficiency decreases rapidly; (2) as model scale increases, the rate of new memorization acquisition decreases while old memorization forgetting increases; (3) data characteristics (token frequency, repetition count, and uncertainty) differentially affect memorized versus non-memorized samples; and (4) prefix perturbations reduce memorization and increase generation uncertainty proportionally to perturbation strength, with low-redundancy samples showing higher vulnerability and larger models offering no additional robustness. These findings advance our understanding of memorization mechanisms, with direct implications for training optimization, privacy safeguards, and architectural improvements.
- Abstract(参考訳): 大規模言語モデルは、動詞の暗記に顕著な能力を示した。
多くの研究がモデル記憶に影響を及ぼす要因を探求してきたが、動的進化記憶パターンはまだ解明されていない。
本稿では, Pythia モデルファミリーの様々なスケールにおける記憶の詳細な解析と, プレフィックス摂動下でのトレーニング手順について述べる。
粒度の計測値を用いて、モデルアーキテクチャ、データ特性、摂動がこれらのパターンにどのように影響するかを検討する。
その結果,(1) モデルスケールが増大するにつれて, 記憶の効率が急速に向上する一方で, 記憶の増大とともに記憶の増大が増加し, モデルスケールが増大するにつれて, 記憶の獲得速度が低下し, 古い記憶の忘れ込みが増加し, (3) データ特性(単語頻度, 繰り返し数, 不確実性)が記憶と非記憶の標本に差をつけ, (4) 接頭辞の摂動は記憶の減少と生成の不確実性を増加させる。
これらの知見は,トレーニング最適化,プライバシ保護,アーキテクチャ改善など,記憶機構の理解を深めるものである。
関連論文リスト
- The emergence of sparse attention: impact of data distribution and benefits of repetition [14.652502263025882]
本研究では,トランスフォーマーにおける重要かつ頻繁な注意パターンであるスパースアテンションのトレーニングに伴う出現について検討した。
玩具モデルの理論的解析と線形回帰変種を訓練した小型変圧器の経験的観察を組み合わせることで,機械的スパークアテンションの出現を明らかにする。
我々の研究は、データ分布とモデル設計が1つの形態の台頭の背後にある学習力学にどのように影響するかを理解するための、シンプルで理論的に基礎的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-05-23T13:14:02Z) - Bigger Isn't Always Memorizing: Early Stopping Overparameterized Diffusion Models [51.03144354630136]
自然データ領域の一般化は、記憶の開始前に訓練中に徐々に達成される。
一般化対メモ化は、時間スケール間の競合として最もよく理解される。
この現象学は,確率論的文脈自由文法をランダムな規則で学習する拡散モデルにおいて復元されることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:40:08Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Uncovering Latent Memories: Assessing Data Leakage and Memorization Patterns in Frontier AI Models [7.50189359952191]
本研究は,初対面後に記憶されないシーケンスをトレーニング中に「発見」できることを示す。
潜在記憶の存在は、記憶されたシーケンスがモデルの最終的なチェックポイントに隠される可能性があるため、データのプライバシの課題となる。
我々は,クロスエントロピー損失を利用した診断試験を開発し,高い精度で潜時記憶配列を明らかにする。
論文 参考訳(メタデータ) (2024-06-20T17:56:17Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - What do larger image classifiers memorise? [64.01325988398838]
トレーニング例は, モデルサイズにまたがって, 予想外の多彩な記憶軌跡を示す。
有効で一般的なモデル圧縮手法である知識蒸留は,記憶を阻害する傾向があり,一般化も改善する。
論文 参考訳(メタデータ) (2023-10-09T01:52:07Z) - On Memorization in Diffusion Models [44.031805633114985]
より小さなデータセットでは記憶の挙動が生じる傾向があることを示す。
我々は、有効モデル記憶(EMM)の観点から、影響因子がこれらの記憶行動に与える影響を定量化する。
本研究は,拡散モデル利用者にとって実用的意義を持ち,深部生成モデルの理論研究の手がかりを提供する。
論文 参考訳(メタデータ) (2023-10-04T09:04:20Z) - Memorization Without Overfitting: Analyzing the Training Dynamics of
Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。
驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文 参考訳(メタデータ) (2022-05-22T07:43:50Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - On Memorization in Probabilistic Deep Generative Models [4.987581730476023]
深層生成モデルの最近の進歩は、様々なアプリケーション領域において印象的な結果をもたらしている。
深層学習モデルが入力データの一部を記憶する可能性に触発されたため、記憶の仕組みを理解するための努力が増加している。
論文 参考訳(メタデータ) (2021-06-06T19:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。