論文の概要: Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention
- arxiv url: http://arxiv.org/abs/2605.29548v2
- Date: Mon, 01 Jun 2026 17:29:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.739104
- Title: Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention
- Title(参考訳): 大規模モデルはなぜより多くを学ぶのか:能力、干渉、希少なタスク保持の影響
- Authors: Jing Huang, Daniel Wurgaft, Rachit Bansal, Laura Ruis, Naomi Saphra, David Alvarez-Melis, Andrew Kyle Lampinen, Christopher Potts, Ekdeep Singh Lubana,
- Abstract要約: より大規模なモデルでは、無限のトレーニングデータであっても、小さなモデルでは学習できないタスクが学習されることが示される。
特に、より小さなモデルでは、ニューロンを高頻度または低複雑性のタスクに割り当て、希少で複雑なタスクでは不十分なソリューションを学ぶ。
次に、より大きなモデルがこのデータ中心のボトルネックを回避し、干渉機構の低下に辿り着くかを評価する。
- 参考スコア(独自算出の注目度): 42.127946936876235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Larger models learn tasks smaller models do not. What drives this phenomenon? We develop a simple phenomenological argument that power-law scaling already suggests that a larger model will be able to learn a part of the data distribution that a smaller model fails to learn, even with infinite training data. To validate this claim and identify its causes, we study the effects of model scaling on a synthetic setup consisting of a mixture of tasks that show monotonic scaling curves. The results point to a data-induced competition over resources (neurons). Specifically, smaller models allocate their neurons to high frequency or low complexity tasks, and so they learn solutions that perform poorly on rare and complex tasks. Moreover, this happens even when solutions capable of expressing the desired task exist. We then assess how a larger model circumvents this data-centric bottleneck, finding that it traces to a reduced interference mechanism: larger models can allocate enough resources to common tasks that the gradient updates for those tasks become weak, which means that they do not overwrite rare-task features as they slowly accumulate. Finally, to further validate these claims, we pretrain OLMo models (4M to 4B parameters) on novel tasks of varying frequency and complexity. The results mirror those from our synthetic data experiments: only the larger OLMo models learn the infrequent and complex tasks, and these larger models embed more task features in their representations and show less gradient interference between tasks. Overall, we offer a data-centric account of why larger models learn tasks that smaller models fail to. This helps explain why larger models are better in practice, and it can inform practical questions concerning model sizing and training data mixtures.
- Abstract(参考訳): より大規模なモデルは、より小さなモデルではできないタスクを学ぶ。
なぜこの現象が引き起こされるのか。
我々は、より大規模なモデルが、無限のトレーニングデータであっても、より小さなモデルでは学習できないデータ分散の一部を学習できることを既に示唆している、という単純な現象論的議論を発展させる。
この主張を検証し,その原因を特定するため,単調なスケーリング曲線を示すタスクの混合からなる合成装置におけるモデルスケーリングの効果について検討した。
その結果は、データによって引き起こされるリソース(ニューロン)に対する競合を指す。
特に、より小さなモデルでは、ニューロンを高頻度または低複雑性のタスクに割り当て、希少で複雑なタスクでは不十分なソリューションを学ぶ。
さらに、これは所望のタスクを表現できる解が存在する場合でも起こる。
より大きなモデルは、これらのタスクの勾配更新が弱くなるような共通タスクに十分なリソースを割り当てることができるので、徐々に蓄積するにつれて、レアタスクの特徴を上書きしないことを意味します。
最後に、これらの主張をさらに検証するために、周波数と複雑さの異なる新しいタスクに対して、OLMoモデル(4Mから4Bパラメータ)を事前訓練する。
その結果、より大規模なOLMoモデルのみが頻繁で複雑なタスクを学習し、これらのモデルはその表現により多くのタスク特徴を組み込んで、タスク間の勾配の干渉を少なくする。
全体として、より大規模なモデルが、より小さなモデルで失敗するタスクを学習する理由を、データ中心で説明します。
これは、より大きなモデルが実際より優れている理由を説明するのに役立つ。
関連論文リスト
- Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead [33.011660907969706]
推論時間スケーリングは、大きな言語モデルの推論能力を高めることができる。
本研究では,9つの最先端モデルと8つの課題にまたがるスケーリング手法の利点と限界について検討する。
論文 参考訳(メタデータ) (2025-03-31T23:40:28Z) - Strong Model Collapse [16.071600606637908]
本稿では,モデル崩壊現象の強い形態が存在することを示す。
以上の結果から,最小の合成データであっても,モデル崩壊につながる可能性が示唆された。
大規模言語モデルの学習における現在の傾向に沿ったアプローチであるモデルサイズの増加が,モデル崩壊を悪化させるか緩和させるかを検討する。
論文 参考訳(メタデータ) (2024-10-07T08:54:23Z) - What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Characterizing and Understanding the Behavior of Quantized Models for
Reliable Deployment [32.01355605506855]
量子化対応トレーニングは、標準、逆数、ミックスアップトレーニングよりも安定したモデルを生成することができる。
診断は、しばしばトップ1とトップ2の出力確率に近づき、$Margin$は、相違点を区別する他の不確実性指標よりも優れた指標である。
我々は、量子化されたモデルをさらに研究するための新しいベンチマークとして、コードとモデルをオープンソース化した。
論文 参考訳(メタデータ) (2022-04-08T11:19:16Z) - Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:53:14Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z) - Amortized learning of neural causal representations [10.140457813764554]
因果モデルでは、すべての介入の下でデータ生成プロセスをコンパクトかつ効率的に符号化することができる。
これらのモデルは、しばしばベイズ的ネットワークとして表現され、変数の数に劣るスケールを学習する。
ニューラルネットワークを用いた因果モデル学習のための,テキスト因果関係ネットワーク(CRN)と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-21T04:35:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。