論文の概要: Bounded Hyperbolic Tangent: A Stable and Efficient Alternative to Pre-Layer Normalization in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.09719v1
- Date: Fri, 26 Dec 2025 06:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.698727
- Title: Bounded Hyperbolic Tangent: A Stable and Efficient Alternative to Pre-Layer Normalization in Large Language Models
- Title(参考訳): 境界双曲タンジェント:大規模言語モデルにおける事前正規化の安定かつ効率的な代替手段
- Authors: Hoyoon Byun, Youngjun Choi, Taero Kim, Sungrae Park, Kyungwoo Song,
- Abstract要約: 我々は,Pre-LNのドロップイン代替として,BHyT(Bunded Hyperbolic Tanh)を提案する。
BHyTは、非飽和領域内での活性化を維持するために、明示的でデータ駆動の入力バウンディングと接な非線形性を結合する。
RMSNormに比べて平均15.8%高速なトレーニングと平均4.2%高いトークン生成スループットを実現している。
- 参考スコア(独自算出の注目度): 20.802982614533615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-Layer Normalization (Pre-LN) is the de facto choice for large language models (LLMs) and is crucial for stable pretraining and effective transfer learning. However, Pre-LN is inefficient due to repeated statistical calculations and suffers from the curse of depth. As layers grow, the magnitude and variance of the hidden state escalate, destabilizing training. Efficiency-oriented normalization-free methods such as Dynamic Tanh (DyT) improve speed but remain fragile at depth. To jointly address stability and efficiency, we propose Bounded Hyperbolic Tanh (BHyT), a drop-in replacement for Pre-LN. BHyT couples a tanh nonlinearity with explicit, data-driven input bounding to keep activations within a non-saturating range. It prevents depth-wise growth in activation magnitude and variance and comes with a theoretical stability guarantee. For efficiency, BHyT computes exact statistics once per block and replaces a second normalization with a lightweight variance approximation, enhancing efficiency. Empirically, BHyT demonstrates improved stability and efficiency during pretraining, achieving an average of 15.8% faster training and an average of 4.2% higher token generation throughput compared to RMSNorm., while matching or surpassing its inference performance and robustness across language understanding and reasoning benchmarks. Our code is available at: https://anonymous.4open.science/r/BHyT
- Abstract(参考訳): Pre-Layer Normalization (Pre-LN)は、大規模言語モデル(LLM)のデファクト選択であり、安定した事前学習と効果的な転送学習に不可欠である。
しかし、Pre-LNは統計計算の繰り返しにより非効率であり、深さの呪いに苦しむ。
層が大きくなると、隠れた状態の大きさとばらつきがエスカレートし、トレーニングを不安定にする。
動的タン(DyT)のような効率指向の正規化のない手法は速度を向上するが、深さでは脆弱である。
安定性と効率性を両立させるため,Pre-LNの代替品であるBunded Hyperbolic Tanh (BHyT)を提案する。
BHyTは、非飽和領域内での活性化を維持するために、明示的でデータ駆動の入力バウンディングと接な非線形性を結合する。
活性化度と分散の深さワイド成長を防ぎ、理論的な安定性を保証する。
効率性のために、BHyTはブロック当たりの正確な統計を計算し、第2の正規化を軽量な分散近似に置き換え、効率を向上する。
経験的に、BHyTは事前トレーニング時の安定性と効率を改善し、RMSNormと比較して平均15.8%高速なトレーニングと平均4.2%高いトークン生成スループットを達成する。
推論性能と言語理解と推論ベンチマークにまたがる堅牢性をマッチングまたは超える。
私たちのコードは、https://anonymous.4open.science/r/BHyTで利用可能です。
関連論文リスト
- Plug-and-Play Homeostatic Spark: Zero-Cost Acceleration for SNN Training Across Paradigms [40.57310813106791]
スパイキングニューラルネットワークは、イベント駆動計算、スパースアクティベーション、ハードウェア効率を提供するが、トレーニングはしばしばゆっくりと収束し、安定性に欠ける。
AHSAR(Adaptive Homeostatic Spiking Activity Regulation)は,超簡易なプラグインおよびトレーニングパラダイムである。
AHSARは最適化を安定化し、モデルアーキテクチャや損失、勾配を変更することなく収束を加速する。
論文 参考訳(メタデータ) (2025-12-04T17:26:46Z) - Leave-One-Out Stable Conformal Prediction [5.573524700758741]
そこで本研究では,サンプル分割を伴わずにアルゴリズム的安定性を用いて完全共形を高速化する手法を提案する。
残余の安定性を活用することで,多数の予測要求を処理する上で,我々の手法ははるかに高速である。
提案手法は理論的に正当化され,合成および実世界のデータに対して優れた数値性能を示す。
論文 参考訳(メタデータ) (2025-04-16T15:44:24Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Non-convex Bayesian Learning via Stochastic Gradient Markov Chain Monte
Carlo [4.656426393230839]
人工知能(AI)の台頭は、非トリップと不確実性のための現代のディープニューラルネットワーク(DNN)の効率性を重視している。
本論文ではモンテカルロ利用問題を扱うためのツールを提案する。
また,基礎となる正規方程式(ODE)システムに対する2つの動的重要度サンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-30T18:25:11Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Stability of Accuracy for the Training of DNNs Via the Uniform Doubling
Condition [0.0]
深層ニューラルネットワーク(DNN)の訓練における精度の安定性について検討する。
精度の安定性を達成するための目標は、ある時点で精度が高い場合、トレーニング全体を通して高い精度を維持することである。
論文 参考訳(メタデータ) (2022-10-16T02:42:42Z) - Feedback Gradient Descent: Efficient and Stable Optimization with
Orthogonality for DNNs [3.42658286826597]
本稿では,FGD(Feedback Gradient Descent)という新しい手法を提案する。
画像分類実験において、FGDは精度、効率、安定性の点で既存の最先端手法を総合的に上回っている。
論文 参考訳(メタデータ) (2022-05-12T03:47:27Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。