論文の概要: The Devil is in the Condition Numbers: Why is GLU Better than non-GLU Structure?
- arxiv url: http://arxiv.org/abs/2605.20749v1
- Date: Wed, 20 May 2026 05:50:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.50703
- Title: The Devil is in the Condition Numbers: Why is GLU Better than non-GLU Structure?
- Title(参考訳): GLUは非GLU構造よりも優れているのか?
- Authors: Xingyu Lyu, Qianqian Xu, Zhiyong Yang, Peisong Wen, Qingming Huang,
- Abstract要約: Gated Linear Units (GLU)とその変種は、現代のオープンソースの大規模言語モデルアーキテクチャにおいて広く採用されている。
ニューラル・タンジェント・カーネル(NTK)の2層ネットワークを解析し,GLUについて検討した。
解析の結果、GLU構造はNTKスペクトルに反し、より少ない条件数とよりコンパクトな固有値分布をもたらすことが明らかとなった。
- 参考スコア(独自算出の注目度): 87.93926438258232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gated Linear Units (GLU) and their variants are widely adopted in modern open-source large language model architectures and consistently outperform their non-gated counterparts, yet the underlying reasons for this advantage remain unclear. In this work, we study GLU by analyzing two-layer networks in the neural tangent kernel (NTK) regime. Our analysis reveals that the GLU structure reshapes the NTK spectrum, leading to a smaller condition number and a more compact eigenvalue distribution. Building on this finding, we further analyze the resulting training dynamics and show how the reshaped spectrum leads to faster convergence of GLU models, including a characteristic loss-crossing phenomenon observed between GLU and non-GLU models. Finally, we empirically observe that GLU has limited impact in reducing the generalization gap on various models, including ViT and GPT-2, suggesting that its primary benefit lies in accelerating optimization rather than reducing the generalization gap.
- Abstract(参考訳): GLU(Gated Linear Units)とその変種は、現代のオープンソースの大規模言語モデルアーキテクチャにおいて広く採用されており、非ゲート言語よりも一貫して優れているが、この利点の根底にある理由ははっきりしない。
本研究では,ニューラル・タンジェント・カーネル(NTK)の2層ネットワークを解析し,GLUについて検討する。
解析の結果、GLU構造はNTKスペクトルに反し、より少ない条件数とよりコンパクトな固有値分布をもたらすことが明らかとなった。
この結果に基づいて,GLUモデルと非GLUモデルの間で観測される特性損失交叉現象を含む,再構成スペクトルがGLUモデルの高速収束につながることを示す。
最後に, GLU が ViT や GPT-2 を含む様々なモデルにおける一般化ギャップの低減に限られた影響があることを実証的に観察し, 一般化ギャップの低減よりも最適化の促進が主な利点であることを示唆した。
関連論文リスト
- λ-GELU: Learning Gating Hardness for Controlled ReLU-ization in Deep Networks [1.1145952934885128]
Gaussian Error Linear Unit (GELU) はRectifier Linear Unit (ReLU) のスムーズな代替品として広く使われている。
-GELUは、ゲーティングの硬さをプロファイルし制御するための最小限の解釈可能なノブを提供する。
全体として、 -GELUは、ゲーティングの硬さをプロファイルし制御するための最小限の、解釈可能なノブを提供し、ReLU中心の下流パイプラインによるスムーズなトレーニングをブリッジする。
論文 参考訳(メタデータ) (2026-03-23T13:58:19Z) - IGLU: The Integrated Gaussian Linear Unit Activation Function [13.305282275999778]
半正規混合分布の下でGELUゲートのスケール混合として導出されるパラメトリック活性化関数IGLUを導入する。
IGLUは、ReLUとGELUのベースラインに対して、視覚と言語データセットの両方において、競争力または優れた性能を達成することを示す。
論文 参考訳(メタデータ) (2026-03-06T20:28:08Z) - A Generative Graph Contrastive Learning Model with Global Signal [0.0]
高精度グラフ学習のためのコントラスト信号生成フレームワーク(CSG2L)
本研究では,CSG2L (Contrastive Signal Generative Framework for Accurate Graph Learning) を提案する。
ベンチマークデータセットの実験では、提案されたCSG2Lが最先端のベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-25T08:00:38Z) - On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - Expressivity and Generalization: Fragment-Biases for Molecular GNNs [42.64483757766247]
Wesfeiler & Leman テストの拡張である Fragment-WL テストを提案し,フラグメントバイアス GNN の理論的解析を可能にする。
我々は,表現性を著しく向上させる新しいGNNアーキテクチャと無限語彙の断片化を開発する。
本稿では,最新のトランスアーキテクチャと比較して,モデルが優れた一般化能力を示すことを示す。
論文 参考訳(メタデータ) (2024-06-12T13:41:07Z) - Causal Inference in Gene Regulatory Networks with GFlowNet: Towards
Scalability in Large Systems [87.45270862120866]
我々は、GRNにおける因果構造学習を強化する新しいフレームワークとしてSwift-DynGFNを紹介した。
具体的には、Swift-DynGFNは、並列化を高め、計算コストを下げるために、遺伝子的に独立性を利用する。
論文 参考訳(メタデータ) (2023-10-05T14:59:19Z) - Fixing the NTK: From Neural Network Linearizations to Exact Convex
Programs [63.768739279562105]
学習目標に依存しない特定のマスクウェイトを選択する場合、このカーネルはトレーニングデータ上のゲートReLUネットワークのNTKと等価であることを示す。
この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。
論文 参考訳(メタデータ) (2023-09-26T17:42:52Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Uncovering the Structural Fairness in Graph Contrastive Learning [87.65091052291544]
グラフコントラスト学習(GCL)は、ノード表現を学習するための有望な自己教師型アプローチとして登場した。
GCL法で得られた表現は,GCN法で学習した表現よりも既に公平であることを示す。
我々は、低次ノードと高次ノードに異なる戦略を適用し、GRAph contrastive learning for Degree bias (GRADE)と呼ばれるグラフ拡張手法を考案した。
論文 参考訳(メタデータ) (2022-10-06T15:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。