論文の概要: Too Big to Think: Capacity, Memorization, and Generalization in Pre-Trained Transformers
- arxiv url: http://arxiv.org/abs/2506.09099v1
- Date: Tue, 10 Jun 2025 14:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.711813
- Title: Too Big to Think: Capacity, Memorization, and Generalization in Pre-Trained Transformers
- Title(参考訳): 考えるには大きすぎる:事前学習変圧器の容量、記憶、一般化
- Authors: Joshua Barron, Devin White,
- Abstract要約: 大規模言語モデルにおける記憶と一般化の関係について検討する。
小さなモデルは未確認の算術の場合に外挿するが、事実を記憶できないが、大きなモデルは記憶するが外挿することができない。
調査の結果、事前学習は本質的に他の学習モードよりも1つの学習モードを好む可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The relationship between memorization and generalization in large language models (LLMs) remains an open area of research, with growing evidence that the two are deeply intertwined. In this work, we investigate this relationship by pre-training a series of capacity-limited Transformer models from scratch on two synthetic character-level tasks designed to separately probe generalization (via arithmetic extrapolation) and memorization (via factual recall). We observe a consistent trade-off: small models extrapolate to unseen arithmetic cases but fail to memorize facts, while larger models memorize but fail to extrapolate. An intermediate-capacity model exhibits a similar shift toward memorization. When trained on both tasks jointly, no model (regardless of size) succeeds at extrapolation. These findings suggest that pre-training may intrinsically favor one learning mode over the other. By isolating these dynamics in a controlled setting, our study offers insight into how model capacity shapes learning behavior and offers broader implications for the design and deployment of small language models.
- Abstract(参考訳): 大規模言語モデル(LLMs)における記憶と一般化の関係は研究のオープンな領域であり、両者が深く絡み合っている証拠が増えている。
本研究では,数式外挿法(算術的外挿法)と暗記法(実のリコール法)を別々に探究するために設計された2つの合成文字レベルタスクに対して,数量限定トランスフォーマーモデルをスクラッチから事前学習することにより,この関係を考察する。
小さいモデルは未確認の算術ケースに外挿するが、事実を記憶できないが、大きなモデルは記憶するが外挿することができない。
中間容量モデルも同様に記憶へのシフトを示す。
両方のタスクを共同でトレーニングした場合、(サイズに関係なく)モデルが外挿で成功することはない。
これらの結果から,事前学習は本質的に他の学習モードよりも1つの学習モードに有利である可能性が示唆された。
制御された環境でこれらのダイナミクスを分離することにより、モデルキャパシティが学習行動をどのように形作るのかを洞察し、小さな言語モデルの設計と展開に広く影響する。
関連論文リスト
- Quantifying Cross-Modality Memorization in Vision-Language Models [86.82366725590508]
モーダリティ記憶のユニークな特徴について検討し,視覚言語モデルを中心とした体系的な研究を行う。
以上の結果から,一方のモダリティが他方のモダリティに伝達されることが判明したが,情報源の情報と対象のモダリティの間には大きなギャップがあることがわかった。
論文 参考訳(メタデータ) (2025-06-05T16:10:47Z) - How much do language models memorize? [104.22411031699127]
我々は記憶を2つの構成要素に分けている:「文体記憶」と「文体一般化」である。
一般化を完全に排除すると、モデルキャパシティを見積もるトータル・メモリ化を計算することができる。
サイズが大きくなるデータセット上で言語モデルをトレーニングし、キャパシティが満たされるまでモデルを記憶し、その時点での「グルーキング」が始まり、モデルが一般化し始めるにつれて意図しない記憶が減少するのを観察する。
論文 参考訳(メタデータ) (2025-05-30T17:34:03Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Emergent and Predictable Memorization in Large Language Models [23.567027014457775]
メモリ化、あるいはトレーニングデータから全シーケンスを出力する大規模言語モデルの傾向は、安全に言語モデルをデプロイする上で重要な関心事である。
我々は,大規模モデルのフルトレインタイム前にどのシーケンスを記憶するかを,低速トライアルの実行時の記憶挙動を外挿することによって予測する。
モデルとデータ間のメモリ化スコアの分布に関する新たな発見を提供する。
論文 参考訳(メタデータ) (2023-04-21T17:58:31Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。