論文の概要: Extending Memorization Dynamics in Pythia Models from Instance-Level Insights
- arxiv url: http://arxiv.org/abs/2506.12321v1
- Date: Sat, 14 Jun 2025 03:02:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.796785
- Title: Extending Memorization Dynamics in Pythia Models from Instance-Level Insights
- Title(参考訳): Pythiaモデルにおけるインスタンスレベルインサイトからの記憶のダイナミクスの拡張
- Authors: Jie Zhang, Qinghua Zhao, Lei Li, Chi-ho Lin,
- Abstract要約: 本稿では, Pythia モデルファミリーの様々なスケールおよびトレーニングステップにおける記憶の詳細な解析について述べる。
粒度の計測値を用いて、モデルアーキテクチャ、データ特性、摂動が記憶パターンにどのように影響するかを検討する。
- 参考スコア(独自算出の注目度): 8.476099189609565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have demonstrated a remarkable ability for verbatim memorization. While numerous works have explored factors influencing model memorization, the dynamic evolution memorization patterns remains underexplored. This paper presents a detailed analysis of memorization in the Pythia model family across varying scales and training steps under prefix perturbations. Using granular metrics, we examine how model architecture, data characteristics, and perturbations influence these patterns. Our findings reveal that: (1) as model scale increases, memorization expands incrementally while efficiency decreases rapidly; (2) as model scale increases, the rate of new memorization acquisition decreases while old memorization forgetting increases; (3) data characteristics (token frequency, repetition count, and uncertainty) differentially affect memorized versus non-memorized samples; and (4) prefix perturbations reduce memorization and increase generation uncertainty proportionally to perturbation strength, with low-redundancy samples showing higher vulnerability and larger models offering no additional robustness. These findings advance our understanding of memorization mechanisms, with direct implications for training optimization, privacy safeguards, and architectural improvements.
- Abstract(参考訳): 大規模言語モデルは、動詞の暗記に顕著な能力を示した。
多くの研究がモデル記憶に影響を及ぼす要因を探求してきたが、動的進化記憶パターンはまだ解明されていない。
本稿では, Pythia モデルファミリーの様々なスケールにおける記憶の詳細な解析と, プレフィックス摂動下でのトレーニング手順について述べる。
粒度の計測値を用いて、モデルアーキテクチャ、データ特性、摂動がこれらのパターンにどのように影響するかを検討する。
その結果,(1) モデルスケールが増大するにつれて, 記憶の効率が急速に向上する一方で, 記憶の増大とともに記憶の増大が増加し, モデルスケールが増大するにつれて, 記憶の獲得速度が低下し, 古い記憶の忘れ込みが増加し, (3) データ特性(単語頻度, 繰り返し数, 不確実性)が記憶と非記憶の標本に差をつけ, (4) 接頭辞の摂動は記憶の減少と生成の不確実性を増加させる。
これらの知見は,トレーニング最適化,プライバシ保護,アーキテクチャ改善など,記憶機構の理解を深めるものである。
関連論文リスト
- MemLens: Uncovering Memorization in LLMs with Activation Trajectories [39.5728313604839]
生成中の数値トークンの確率軌跡を解析してメモリ化を検出するために,MemLensを提案する。
提案手法では, 汚染試料はショートカットの挙動を示し, 信頼性の高い解答にロックする。
汚染された試料とクリーンな試料は, 別々に分離された推理軌道を示す。
論文 参考訳(メタデータ) (2025-09-25T08:55:18Z) - Data Cartography for Detecting Memorization Hotspots and Guiding Data Interventions in Generative Models [0.0]
現代の生成モデルは、競合者やベンチマークのパフォーマンスによって抽出される稀なトレーニング例を、過度に適合させ、意図せずに記憶するリスクがある。
本稿では,データ中心のフレームワークであるGenerative Data Cartography(GenDataCarto)を提案する。
本研究の記憶度スコアは, 平滑な仮定の下で古典的な影響を低く抑え, 均一な安定性境界を通した一般化ギャップを確実に減少させることを証明した。
論文 参考訳(メタデータ) (2025-08-27T05:11:06Z) - Memorization in Fine-Tuned Large Language Models [0.0]
本研究では,微調整大言語モデル(LLM)における暗記のメカニズムと要因について検討する。
薬物移動イベントのPHEEデータセットを用いて、微調整プロセスの異なる側面がトレーニングデータを記憶するモデルの適合性にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-07-28T17:22:10Z) - A Closer Look on Memorization in Tabular Diffusion Model: A Data-Centric Perspective [15.33961902853653]
生成したサンプルがレプリカとしてフラグ付けされている回数に基づいて,実サンプル毎のメモリ化を定量化する。
経験的分析により,暗記回数の重み付き分布が明らかとなった。
モデルに依存しない2段階緩和法であるDynamicCutを提案する。
論文 参考訳(メタデータ) (2025-05-28T13:06:00Z) - The emergence of sparse attention: impact of data distribution and benefits of repetition [14.652502263025882]
本研究では,トランスフォーマーにおける重要かつ頻繁な注意パターンであるスパースアテンションのトレーニングに伴う出現について検討した。
玩具モデルの理論的解析と線形回帰変種を訓練した小型変圧器の経験的観察を組み合わせることで,機械的スパークアテンションの出現を明らかにする。
我々の研究は、データ分布とモデル設計が1つの形態の台頭の背後にある学習力学にどのように影響するかを理解するための、シンプルで理論的に基礎的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-05-23T13:14:02Z) - Bigger Isn't Always Memorizing: Early Stopping Overparameterized Diffusion Models [51.03144354630136]
自然データ領域の一般化は、記憶の開始前に訓練中に徐々に達成される。
一般化対メモ化は、時間スケール間の競合として最もよく理解される。
この現象学は,確率論的文脈自由文法をランダムな規則で学習する拡散モデルにおいて復元されることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:40:08Z) - Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。
初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。
これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文 参考訳(メタデータ) (2025-02-28T14:08:30Z) - Redistribute Ensemble Training for Mitigating Memorization in Diffusion Models [31.92526915009259]
拡散モデルは非常に高品質なサンプルを生成する能力で知られている。
最近のメモリ緩和法は、主にテキストモダリティの文脈における問題に対処している。
本稿では,視覚的モダリティの観点からの拡散モデルの新たな手法を提案する。
論文 参考訳(メタデータ) (2025-02-13T15:56:44Z) - FairDropout: Using Example-Tied Dropout to Enhance Generalization of Minority Groups [10.274236106456758]
経験的リスク最小化で訓練されたモデルは、少数派からの事例を記憶しながら、多数派からの例をうまく一般化する傾向があることを示す。
本研究は、FairDropoutという手法として、この記憶を推論中に削除した特定のニューロンにリダイレクトすることを目的として、サンプルタイドドロップアウトを適用した。
視覚,言語,医療タスクを含むサブポピュレーション・ベンチマーク・スイートを用いて,FairDropoutを実証的に評価した。
論文 参考訳(メタデータ) (2025-02-10T17:18:54Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Uncovering Latent Memories: Assessing Data Leakage and Memorization Patterns in Frontier AI Models [7.50189359952191]
本研究は,初対面後に記憶されないシーケンスをトレーニング中に「発見」できることを示す。
潜在記憶の存在は、記憶されたシーケンスがモデルの最終的なチェックポイントに隠される可能性があるため、データのプライバシの課題となる。
我々は,クロスエントロピー損失を利用した診断試験を開発し,高い精度で潜時記憶配列を明らかにする。
論文 参考訳(メタデータ) (2024-06-20T17:56:17Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - What do larger image classifiers memorise? [64.01325988398838]
トレーニング例は, モデルサイズにまたがって, 予想外の多彩な記憶軌跡を示す。
有効で一般的なモデル圧縮手法である知識蒸留は,記憶を阻害する傾向があり,一般化も改善する。
論文 参考訳(メタデータ) (2023-10-09T01:52:07Z) - On Memorization in Diffusion Models [44.031805633114985]
より小さなデータセットでは記憶の挙動が生じる傾向があることを示す。
我々は、有効モデル記憶(EMM)の観点から、影響因子がこれらの記憶行動に与える影響を定量化する。
本研究は,拡散モデル利用者にとって実用的意義を持ち,深部生成モデルの理論研究の手がかりを提供する。
論文 参考訳(メタデータ) (2023-10-04T09:04:20Z) - How adversarial attacks can disrupt seemingly stable accurate classifiers [76.95145661711514]
敵攻撃は、入力データに不連続な修正を加えることで、非正確な学習システムの出力を劇的に変化させる。
ここでは,これは高次元入力データを扱う分類器の基本的特徴であると考えられる。
実用システムで観測される重要な振る舞いを高い確率で発生させる、単純で汎用的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-07T12:02:00Z) - Memorization Without Overfitting: Analyzing the Training Dynamics of
Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。
驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文 参考訳(メタデータ) (2022-05-22T07:43:50Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - A Frequency Perspective of Adversarial Robustness [72.48178241090149]
理論的および経験的知見を参考に,周波数に基づく対向例の理解について述べる。
分析の結果,逆転例は高周波でも低周波成分でもないが,単にデータセット依存であることがわかった。
本稿では、一般に観測される精度対ロバスト性トレードオフの周波数に基づく説明法を提案する。
論文 参考訳(メタデータ) (2021-10-26T19:12:34Z) - On Memorization in Probabilistic Deep Generative Models [4.987581730476023]
深層生成モデルの最近の進歩は、様々なアプリケーション領域において印象的な結果をもたらしている。
深層学習モデルが入力データの一部を記憶する可能性に触発されたため、記憶の仕組みを理解するための努力が増加している。
論文 参考訳(メタデータ) (2021-06-06T19:33:04Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。