論文の概要: PowLU: An Activation Function for Stable Pre-Training of LLMs
- arxiv url: http://arxiv.org/abs/2605.25704v1
- Date: Mon, 25 May 2026 11:02:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.824004
- Title: PowLU: An Activation Function for Stable Pre-Training of LLMs
- Title(参考訳): PowLU: 安定なLCM前処理のための活性化機能
- Authors: Peijie Jiang, Yuqi Feng, Cunyin Peng, Qian Zhao, Jia Liu, KunLong Chen, Zhiqiang Zhang, Jun Zhou,
- Abstract要約: 大規模LLM事前学習のための安定した活性化機能である電力線形ユニット(PowLU)を提案する。
具体的には、PowLUは適応非線形性を達成するために合理的なパワー関数を使用し、表現能力を改善し、スパイク領域での安定したトレーニングを可能にする。
- 参考スコア(独自算出の注目度): 20.337153469330566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contemporary large language models (LLMs), the swish-gated linear unit (SwiGLU) activation function is widely adopted to regulate the information flow and introduce non-linearity. For large positive inputs, SwiGLU approximates the quadratic function $x^2$, providing strong nonlinearity and expressive capacity. However, this property also causes numerical instability as the input or model scale increases, particularly in low-precision LLM training. The main reason is its approximate quadratic amplification, which enlarges the output range and exacerbates outliers. To address this issue, we propose a stable activation function, Power Linear Unit (PowLU), for large-scale LLM pre-training. Specifically, PowLU employs a rational power function to achieve adaptive nonlinearity, thereby improving representation ability and enabling stable training in spike regions. Moreover, we provide theoretical justification for several key properties of PowLU. Scaling law experiments confirm that the performance is consistent across model sizes, and further experimental results with the Ling architecture (7.9B and 124B total parameters) demonstrate that PowLU achieves competitive results against SwiGLU and SwiGLU-Clip in large-scale training of LLMs. In addition, the experimental results also show that PowLU effectively improves the scalability of the large-scale training of LLMs.
- Abstract(参考訳): 現代の大言語モデル(LLM)では、情報フローを制御し、非線形性を導入するために、スウィッシュゲート線形単位(SwiGLU)アクティベーション関数が広く採用されている。
大きな正の入力に対して、SwiGLU は二次函数 $x^2$ を近似し、強い非線形性と表現能力を与える。
しかし、この性質は入力やモデルスケールが増大するにつれて数値的な不安定性を引き起こす。
主な理由は2次増幅であり、出力範囲を拡大し、アウトリーチを悪化させる。
この問題に対処するために,大規模LLM事前学習のための安定活性化機能である電力線形ユニット(PowLU)を提案する。
具体的には、PowLUは適応非線形性を達成するために合理的なパワー関数を使用し、表現能力を改善し、スパイク領域での安定したトレーニングを可能にする。
さらに、PowLUのいくつかの重要な性質について理論的に正当化する。
スケーリング法則実験により,Lingアーキテクチャ (7.9B と 124B の総パラメータ) によるさらなる実験により,PowLU が LLM の大規模トレーニングにおいて SwiGLU と SwiGLU-Clip と競合する結果が得られることが示された。
さらに,実験結果から,PowLUはLLMの大規模トレーニングのスケーラビリティを効果的に向上することが示された。
関連論文リスト
- Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules [9.332823269318842]
スケーリング法則は、大きな言語モデルのトレーニングを理解し、導くための統一レンズとして登場した。
我々は任意のLSSの下で全損失軌跡を捕捉する機能スケーリング法を確立した。
データ制限と計算制限の両方で明示的なスケーリング関係を導出する。
論文 参考訳(メタデータ) (2025-09-23T16:05:16Z) - Scalable Multi-Stage Influence Function for Large Language Models via Eigenvalue-Corrected Kronecker-Factored Parameterization [31.379237532476875]
事前訓練された大規模言語モデル(LLM)は、一般的に下流タスクに適応するように微調整される。
本稿では,学習前データに対する微調整LDMの属性予測のための多段階影響関数を提案する。
論文 参考訳(メタデータ) (2025-05-08T07:43:44Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [64.15238674475619]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文 参考訳(メタデータ) (2024-11-04T17:59:04Z) - Activation function optimization method: Learnable series linear units (LSLUs) [12.089173508371246]
LSLU (Learnable Series Linear Units) と呼ばれる直列学習可能なac-tivation関数を提案する。
この方法は、精度を向上しつつ、ディープラーニングネットワークを単純化する。
CIFAR10, CIFAR100および特定のタスクデータセット(例えばSilkworm)上でのLSLUの性能を評価する。
論文 参考訳(メタデータ) (2024-08-28T11:12:27Z) - ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。