A Limit Theory of Foundation Models: A Mathematical Approach to Understanding Emergent Intelligence and Scaling Laws
Abstractの概要
本論文は、基盤モデルに対する数学的フレームワークを構築し、データサイズ・モデルサイズ・学習ステップ数に関する性能関数を定義し、これらの量が増大する際の極限の存在として創発的知能を解釈する。解析では、基本的な関数ブロックの無限深度合成である「極限アーキテクチャ」を導入し、非線形リプシッツ作用素理論を用いてその存在を研究する。このフレームワーク内で、性能誤差を最適化・アーキテクチャ・サンプルの各成分に分解し、漸近的挙動とスケーリング則を結びつける。また、GPT-1およびGPT-2スタイルのアーキテクチャの比較や、複数のオープンソースモデルの層ごとの分析を含む実証的検証を行い、提案された理論的条件が実際に反映されているかを検討している。
新規性
本論文の独自の貢献は、創発的知能に対する極限理論的定式化であり、創発とスケーリング則の両方を無限次元の極限アーキテクチャの存在と収束挙動に結びつけている点にある。さらに、非線形作用素のリプシッツ定数を中心的な基準として導入し、そのような極限アーキテクチャが存在するための必要十分条件を確立している。
成果
本論文は、その仮定の下で、性能の極限が存在する場合に基盤モデルが創発的知能を示すことを証明し、学習ステップ数とモデルサイズの効果が指数的、データサイズの効果がべき乗則であるスケーリング則を導出し、β^K + Lip(T)^P + N^{-1/2}の形の全体的な上界を得ている。実証面では、1BパラメータのGPT-2スタイルモデルが同等のGPT-1スタイルモデルをベンチマーク平均で上回り(47.57% 対 34.89%)、Llama-3.1、Qwen-2、DeepSeek-MoEモデルにおいて提案された凝縮特性と整合する層ごとの証拠を示している。
論文の注目点
- 創発的知能は、データサイズ・モデルサイズ・学習ステップ数がすべて無限大に向かう際の性能関数の極限の存在として形式化される。
- 理論は、最終的にLip(T_i) ≤ 1であることと、ブロックが総和可能な偏差を持つ射影作用素に収束することに基づいて、極限アーキテクチャの存在のための必要十分条件を特定する。
- 実証的分析は、リプシッツ定数の追跡によるpre-LayerNorm(GPT-2スタイル)モデルのより高い学習安定性の提示と、Llama-3.1、Qwen-2、DeepSeek-MoEモデルファミリーにおける凝縮挙動の観察により、理論と実践を結びつけている。