論文の概要: SimpleGPT: Improving GPT via A Simple Normalization Strategy
- arxiv url: http://arxiv.org/abs/2602.01212v1
- Date: Sun, 01 Feb 2026 13:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.663624
- Title: SimpleGPT: Improving GPT via A Simple Normalization Strategy
- Title(参考訳): SimpleGPT: シンプルな正規化戦略によるGPTの改善
- Authors: Marco Chen, Xianbiao Qi, Yelin He, Jiaquan Ye, Rong Xiao,
- Abstract要約: この研究は、2階幾何学のレンズを通してトランスフォーマーの最適化を再考する。
構成により中間活性化スケールを安定化する単純な正規化戦略であるSimpleNormを導入する。
パラメータスケール1B, 1.4B, 7B, 8Bにおける大規模GPTモデルの広範な実験により, 理論的知見を検証した。
- 参考スコア(独自算出の注目度): 8.297062899157664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we revisit Transformer optimization through the lens of second-order geometry and establish a direct connection between architectural design, activation scale, the Hessian matrix, and the maximum tolerable learning rate. We introduce a simple normalization strategy, termed SimpleNorm, which stabilizes intermediate activation scales by construction. Then, by analyzing the Hessian of the loss with respect to network activations, we theoretically show that SimpleNorm significantly reduces the spectral norm of the Hessian, thereby permitting larger stable learning rates. We validate our theoretical findings through extensive experiments on large GPT models at parameter scales 1B, 1.4B, 7B and 8B. Empirically, SimpleGPT, our SimpleNorm-based network, tolerates learning rates 3$\times$-10$\times$ larger than standard convention, consistently demonstrates strong optimization stability, and achieves substantially better performance than well-established baselines. Specifically, when training 7B-scale models for 60K steps, SimpleGPT achieves a training loss that is 0.08 lower than that of LLaMA2 with QKNorm, reducing the loss from 2.290 to 2.208. Our source code will be released at https://github.com/Ocram7/SimpleGPT.
- Abstract(参考訳): 本研究では,2次幾何学のレンズを用いてトランスフォーマーの最適化を再検討し,アーキテクチャ設計,アクティベーションスケール,ヘッセン行列,最大許容学習率の直接的な接続を確立する。
構成により中間活性化スケールを安定化する単純な正規化戦略であるSimpleNormを導入する。
そして,ネットワークアクティベーションに関する損失のヘッセンを解析することにより,SimpleNormがヘッセンのスペクトルノルムを著しく低減し,より安定した学習率を実現することを理論的に示す。
パラメータスケール1B, 1.4B, 7B, 8Bにおける大規模GPTモデルの広範な実験により, 理論的知見を検証した。
経験的に、SimpleNormベースのネットワークであるSimpleGPTは、標準よりも大きな学習率3$\times$-10$\times$を許容し、一貫して強力な最適化安定性を示し、確立されたベースラインよりもはるかに優れたパフォーマンスを実現しています。
具体的には、60Kステップの7Bスケールモデルのトレーニングでは、SimpleGPTはLLaMA2のQKNormよりも0.08低いトレーニング損失を達成し、2.290から2.208に減少する。
ソースコードはhttps://github.com/Ocram7/SimpleGPTで公開されます。
関連論文リスト
- Revisiting Weighted Strategy for Non-stationary Parametric Bandits and MDPs [56.246783503873225]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。
本稿では,ウィンドウ/リスタートベースアルゴリズムと同様に,より単純な重みに基づくアルゴリズムを提案する。
我々のフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文 参考訳(メタデータ) (2026-01-03T04:50:21Z) - Scaling Bidirectional Spans and Span Violations in Attention Mechanism [5.755498052202004]
canonical $O(N2)$ Transformerは、シーケンスモデリングにおける経験的なパフォーマンスフロンティアのままである。
本研究では,非対称なプロジェクションを利用して後方方向の勾配を並列スパンに分解する最適化フレームワークを提案する。
我々はこれらのコンポーネントを選択的にスケーリングし、主に0分の1の双方向並列スパンにフォーカスすることで、最も効果的な学習信号が得られることを示した。
論文 参考訳(メタデータ) (2025-12-15T07:03:24Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [61.607788999847564]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。
高速グラフシャープネス認識最小化(FGSAM)を提案する。
提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文 参考訳(メタデータ) (2024-10-22T09:33:29Z) - Hidden Synergy: $L_1$ Weight Normalization and 1-Path-Norm Regularization [0.0]
PSiLON Netの設計が1-path-normを大幅に単純化することを示す。
そこで本研究では,訓練の最終段階において,正確な空間性を実現するためのプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T21:25:25Z) - SHOT: Suppressing the Hessian along the Optimization Trajectory for
Gradient-Based Meta-Learning [28.26143547479141]
SHOT(Suppressing the Hessian along the Optimization Trajectory)と呼ばれるアルゴリズムを導入する。
SHOTはベースラインモデルの計算複雑性をあまり増やさない。
本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-04T11:43:08Z) - Towards Understanding Label Smoothing [36.54164997035046]
ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。
適切なLSRが分散を減少させることで収束を加速することを示す。
本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
論文 参考訳(メタデータ) (2020-06-20T20:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。