論文の概要: Divine Benevolence is an $x^2$: GLUs scale asymptotically faster than MLPs
- arxiv url: http://arxiv.org/abs/2602.14495v1
- Date: Mon, 16 Feb 2026 06:19:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.227255
- Title: Divine Benevolence is an $x^2$: GLUs scale asymptotically faster than MLPs
- Title(参考訳): Divine Benevolence is a $x^2$: GLUs scale asymptotically than MLPs
- Authors: Alejandro Francisco Queiruga,
- Abstract要約: スケーリング法則は、基底解析から理解することができる。
現在、GLUの変種がフロンティアのLLMを支配しており、同様の外積アーキテクチャがランキングモデルで一般的である。
GLUは2次関数形式を持ち、近似の2次順序を示すのに十分であることを示す。
これにより、アーキテクチャ設計が第一原理の数値理論から大きなモデルにおける優れたスケーリングを解き放つ可能性が開ける。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling laws can be understood from ground-up numerical analysis, where traditional function approximation theory can explain shifts in model architecture choices. GLU variants now dominate frontier LLMs and similar outer-product architectures are prevalent in ranking models. The success of these architectures has mostly been left as an empirical discovery. In this paper, we apply the tools of numerical analysis to expose a key factor: these models have an $x^2$ which enables \emph{asymptotically} faster scaling than MLPs. GLUs have piecewise quadratic functional forms that are sufficient to exhibit quadratic order of approximation. Our key contribution is to demonstrate that the $L(P)$ scaling slope is $L(P)\propto P^{-3}$ for GLUs but only $L(P)=P^{-2}$ for MLPs on function reconstruction problems. We provide a parameter construction and empirical verification of these slopes for 1D function approximation. From the first principles we discover, we make one stride and propose the ``Gated Quadratic Unit'' which has an even steeper $L(P)$ slope than the GLU and MLP. This opens the possibility of architecture design from first principles numerical theory to unlock superior scaling in large models. Replication code is available at https://github.com/afqueiruga/divine_scaling.
- Abstract(参考訳): スケーリング法則は、従来の関数近似理論がモデルアーキテクチャの選択のシフトを説明することのできる、基底的な数値解析から理解することができる。
現在、GLUの変種がフロンティアのLLMを支配しており、同様の外積アーキテクチャがランキングモデルで一般的である。
これらのアーキテクチャの成功は、主に実証的な発見として残されている。
本稿では,MLPよりも高速なスケーリングを可能にする$x^2$のモデルを提案する。
GLUは2次関数形式を持ち、近似の2次順序を示すのに十分である。
我々の重要な貢献は、GLU に対して$L(P)$スケーリングスロープが$L(P)\propto P^{-3}$であるが、関数再構成問題において MLP に対して$L(P)=P^{-2}$ であることを示すことである。
1次元関数近似のためのパラメータ構築とこれらの勾配の実証的検証を行う。
最初の原理から、GLU や MLP よりもさらに急な$L(P)$スロープを持つ 'Gated Quadratic Unit' を提案する。
これにより、アーキテクチャ設計が第一原理の数値理論から大きなモデルにおける優れたスケーリングを解き放つ可能性が開ける。
レプリケーションコードはhttps://github.com/afqueiruga/divine_scaling.comで公開されている。
関連論文リスト
- Learning Orthogonal Multi-Index Models: A Fine-Grained Information Exponent Analysis [54.57279006229212]
情報指数は、オンライン勾配降下のサンプルの複雑さを予測する上で重要な役割を担っている。
本研究では,2次項と高次項の両方を考慮することで,まず2次項を用いて関連する空間を学習できることを示す。
オンラインSGDの全体サンプルと複雑さは$tildeO(d PL-1 )$である。
論文 参考訳(メタデータ) (2024-10-13T00:14:08Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - Exploring and Learning in Sparse Linear MDPs without Computationally
Intractable Oracles [39.10180309328293]
本稿では,特徴選択の観点から線形MDPを再考する。
我々の主な成果は、この問題に対する最初のアルゴリズムである。
コンベックスプログラミングによって効率よく計算できることを示す。
論文 参考訳(メタデータ) (2023-09-18T03:35:48Z) - Restricted Strong Convexity of Deep Learning Models with Smooth
Activations [31.003601717265006]
本研究では,スムーズなアクティベーション機能を持つディープラーニングモデルの最適化問題について検討する。
Restricted Strong Convexity (RSC) に基づく最適化の新しい解析手法を提案する。
深層学習モデルのためのRCCに基づくGDの幾何収束性を確立するための最初の結果である。
論文 参考訳(メタデータ) (2022-09-29T21:24:26Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。