論文の概要: Causal Estimation of Memorisation Profiles
- arxiv url: http://arxiv.org/abs/2406.04327v1
- Date: Thu, 6 Jun 2024 17:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:11:04.304412
- Title: Causal Estimation of Memorisation Profiles
- Title(参考訳): 覚醒プロファイルの因果推定
- Authors: Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel,
- Abstract要約: 言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
- 参考スコア(独自算出の注目度): 58.20086589761273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding memorisation in language models has practical and societal implications, e.g., studying models' training dynamics or preventing copyright infringements. Prior work defines memorisation as the causal effect of training with an instance on the model's ability to predict that instance. This definition relies on a counterfactual: the ability to observe what would have happened had the model not seen that instance. Existing methods struggle to provide computationally efficient and accurate estimates of this counterfactual. Further, they often estimate memorisation for a model architecture rather than for a specific model instance. This paper fills an important gap in the literature, proposing a new, principled, and efficient method to estimate memorisation based on the difference-in-differences design from econometrics. Using this method, we characterise a model's memorisation profile--its memorisation trends across training--by only observing its behaviour on a small set of instances throughout training. In experiments with the Pythia model suite, we find that memorisation (i) is stronger and more persistent in larger models, (ii) is determined by data order and learning rate, and (iii) has stable trends across model sizes, thus making memorisation in larger models predictable from smaller ones.
- Abstract(参考訳): 言語モデルにおける記憶の理解は、例えばモデルのトレーニングダイナミクスの研究や著作権侵害の防止など、実践的および社会的意味を持つ。
これまでの作業では、暗記はトレーニングの因果効果として定義されており、モデルがそのインスタンスを予測できる能力にインスタンスが与える影響である。
この定義は反事実に依存しており、何が起こったのかを観察する能力は、そのインスタンスを見ていないモデルである。
既存の手法は、計算的に効率的で正確な計算結果を提供するのに苦労している。
さらに、特定のモデルインスタンスではなく、モデルアーキテクチャの暗記をしばしば見積もる。
本論文は文献における重要なギャップを埋め,計量学からの差分差分設計に基づく,新しい,原則付き,効率的な記憶推定法を提案する。
本手法を用いて,トレーニング中の少数のインスタンスに対してのみ,その振る舞いを観察することで,トレーニング全体にわたる記憶傾向のモデル記憶プロファイルを特徴づける。
Pythia モデルスイートの実験では、暗記が見つかる。
i) より大型のモデルではより強く永続的である。
(ii)データの順序と学習率によって決定され、
(iii) はモデルサイズ全体にわたる安定した傾向を持ち、より小さなモデルから予測可能な大きなモデルでの暗記を実現する。
関連論文リスト
- Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
モデルトレーニングを回避し、80の公開モデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Specify Robust Causal Representation from Mixed Observations [35.387451486213344]
観測から純粋に表現を学習することは、予測モデルに有利な低次元のコンパクトな表現を学習する問題を懸念する。
本研究では,観測データからこのような表現を学習するための学習手法を開発した。
理論的および実験的に、学習された因果表現で訓練されたモデルは、敵の攻撃や分布シフトの下でより堅牢であることを示す。
論文 参考訳(メタデータ) (2023-10-21T02:18:35Z) - What do larger image classifiers memorise? [64.01325988398838]
トレーニング例は, モデルサイズにまたがって, 予想外の多彩な記憶軌跡を示す。
有効で一般的なモデル圧縮手法である知識蒸留は,記憶を阻害する傾向があり,一般化も改善する。
論文 参考訳(メタデータ) (2023-10-09T01:52:07Z) - On Memorization in Diffusion Models [46.656797890144105]
より小さなデータセットでは記憶の挙動が生じる傾向があることを示す。
我々は、有効モデル記憶(EMM)の観点から、影響因子がこれらの記憶行動に与える影響を定量化する。
本研究は,拡散モデル利用者にとって実用的意義を持ち,深部生成モデルの理論研究の手がかりを提供する。
論文 参考訳(メタデータ) (2023-10-04T09:04:20Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。