論文の概要: Too Big to Think: Capacity, Memorization, and Generalization in Pre-Trained Transformers
- arxiv url: http://arxiv.org/abs/2506.09099v2
- Date: Tue, 17 Jun 2025 19:17:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 16:34:05.484812
- Title: Too Big to Think: Capacity, Memorization, and Generalization in Pre-Trained Transformers
- Title(参考訳): 考えるには大きすぎる:事前学習変圧器の容量、記憶、一般化
- Authors: Joshua Barron, Devin White,
- Abstract要約: 大規模言語モデルにおける記憶と一般化の関係について検討する。
小さなモデルは未確認の算術の場合に外挿するが、事実を記憶できないが、大きなモデルは記憶するが外挿することができない。
調査の結果、事前学習は本質的に他の学習モードよりも1つの学習モードを好む可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The relationship between memorization and generalization in large language models (LLMs) remains an open area of research, with growing evidence that the two are deeply intertwined. In this work, we investigate this relationship by pre-training a series of capacity-limited Transformer models from scratch on two synthetic character-level tasks designed to separately probe generalization (via arithmetic extrapolation) and memorization (via factual recall). We observe a consistent trade-off: small models extrapolate to unseen arithmetic cases but fail to memorize facts, while larger models memorize but fail to extrapolate. An intermediate-capacity model exhibits a similar shift toward memorization. When trained on both tasks jointly, no model (regardless of size) succeeds at extrapolation. These findings suggest that pre-training may intrinsically favor one learning mode over the other. By isolating these dynamics in a controlled setting, our study offers insight into how model capacity shapes learning behavior and offers broader implications for the design and deployment of small language models.
- Abstract(参考訳): 大規模言語モデル(LLMs)における記憶と一般化の関係は研究のオープンな領域であり、両者が深く絡み合っている証拠が増えている。
本研究では,数式外挿法(算術的外挿法)と暗記法(実のリコール法)を別々に探究するために設計された2つの合成文字レベルタスクに対して,数量限定トランスフォーマーモデルをスクラッチから事前学習することにより,この関係を考察する。
小さいモデルは未確認の算術ケースに外挿するが、事実を記憶できないが、大きなモデルは記憶するが外挿することができない。
中間容量モデルも同様に記憶へのシフトを示す。
両方のタスクを共同でトレーニングした場合、(サイズに関係なく)モデルが外挿で成功することはない。
これらの結果から,事前学習は本質的に他の学習モードよりも1つの学習モードに有利である可能性が示唆された。
制御された環境でこれらのダイナミクスを分離することにより、モデルキャパシティが学習行動をどのように形作るのかを洞察し、小さな言語モデルの設計と展開に広く影響する。
関連論文リスト
- Quantifying Cross-Modality Memorization in Vision-Language Models [86.82366725590508]
モーダリティ記憶のユニークな特徴について検討し,視覚言語モデルを中心とした体系的な研究を行う。
以上の結果から,一方のモダリティが他方のモダリティに伝達されることが判明したが,情報源の情報と対象のモダリティの間には大きなギャップがあることがわかった。
論文 参考訳(メタデータ) (2025-06-05T16:10:47Z) - How much do language models memorize? [104.22411031699127]
我々は記憶を2つの構成要素に分けている:「文体記憶」と「文体一般化」である。
一般化を完全に排除すると、モデルキャパシティを見積もるトータル・メモリ化を計算することができる。
サイズが大きくなるデータセット上で言語モデルをトレーニングし、キャパシティが満たされるまでモデルを記憶し、その時点での「グルーキング」が始まり、モデルが一般化し始めるにつれて意図しない記憶が減少するのを観察する。
論文 参考訳(メタデータ) (2025-05-30T17:34:03Z) - Small Models, Smarter Learning: The Power of Joint Task Training [23.91574901740084]
本研究では,ネストした数学的操作からなるListOpsデータセットに着目した。
我々は和 modulo n が最も学習が難しいことを観察する。
ジョイントトレーニングは,パフォーマンスの向上だけでなく,定性的に異なるモデル行動をもたらすことを示す。
論文 参考訳(メタデータ) (2025-05-23T20:56:37Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Frequency Explains the Inverse Correlation of Large Language Models'
Size, Training Data Amount, and Surprisal's Fit to Reading Times [15.738530737312335]
近年の研究では、トランスフォーマーに基づく言語モデルが大きくなり、非常に大量のデータで訓練されているため、その推定結果が自然主義的な人間の読解時間に適合していることが示されている。
本稿では,これら2つの傾向の根底にある説明要因として,単語頻度が重要であることを示す一連の分析結果を示す。
その結果,トランスフォーマーをベースとした言語モデルによる推定は,稀な単語を予測するために学習する超人的に複雑な関連性から,人間の期待から逸脱していることがわかった。
論文 参考訳(メタデータ) (2024-02-03T20:22:54Z) - Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。
これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。
これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文 参考訳(メタデータ) (2023-06-06T18:00:01Z) - Emergent and Predictable Memorization in Large Language Models [23.567027014457775]
メモリ化、あるいはトレーニングデータから全シーケンスを出力する大規模言語モデルの傾向は、安全に言語モデルをデプロイする上で重要な関心事である。
我々は,大規模モデルのフルトレインタイム前にどのシーケンスを記憶するかを,低速トライアルの実行時の記憶挙動を外挿することによって予測する。
モデルとデータ間のメモリ化スコアの分布に関する新たな発見を提供する。
論文 参考訳(メタデータ) (2023-04-21T17:58:31Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。