論文の概要: SeeDNorm: Self-Rescaled Dynamic Normalization
- arxiv url: http://arxiv.org/abs/2510.22777v1
- Date: Sun, 26 Oct 2025 18:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.559058
- Title: SeeDNorm: Self-Rescaled Dynamic Normalization
- Title(参考訳): SeeDNorm: 自己スケールの動的正規化
- Authors: Wenrui Cai, Defa Zhu, Qingjie Liu, Qiyang Min,
- Abstract要約: SeeDNormは電流入力に基づいてスケーリング係数を動的に調整する。
SeedNormのトレーニング最適化について詳細に分析する。
本研究では,大規模言語モデルの事前学習において,様々なサイズのモデルに対してSeeDNormの有効性を検証する。
- 参考スコア(独自算出の注目度): 23.58770983760075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Normalization layer constitutes an essential component in neural networks. In transformers, the predominantly used RMSNorm constrains vectors to a unit hypersphere, followed by dimension-wise rescaling through a learnable scaling coefficient $\gamma$ to maintain the representational capacity of the model. However, RMSNorm discards the input norm information in forward pass and a static scaling factor $\gamma$ may be insufficient to accommodate the wide variability of input data and distributional shifts, thereby limiting further performance improvements, particularly in zero-shot scenarios that large language models routinely encounter. To address this limitation, we propose SeeDNorm, which enhances the representational capability of the model by dynamically adjusting the scaling coefficient based on the current input, thereby preserving the input norm information and enabling data-dependent, self-rescaled dynamic normalization. During backpropagation, SeeDNorm retains the ability of RMSNorm to dynamically adjust gradient according to the input norm. We provide a detailed analysis of the training optimization for SeedNorm and proposed corresponding solutions to address potential instability issues that may arise when applying SeeDNorm. We validate the effectiveness of SeeDNorm across models of varying sizes in large language model pre-training as well as supervised and unsupervised computer vision tasks. By introducing a minimal number of parameters and with neglligible impact on model efficiency, SeeDNorm achieves consistently superior performance compared to previously commonly used normalization layers such as RMSNorm and LayerNorm, as well as element-wise activation alternatives to normalization layers like DyT.
- Abstract(参考訳): 正規化層はニューラルネットワークにおいて不可欠な要素である。
変換器において、主に使用されるRMSNormはベクトルを単位超球面に制約し、次に学習可能なスケーリング係数$\gamma$を通して次元的に再スケーリングし、モデルの表現能力を維持する。
しかし、RMSNormは入力ノルム情報を前方通過で破棄し、静的スケーリング係数$\gamma$は入力データと分散シフトの広範なばらつきに対応するには不十分である可能性があるため、特に大きな言語モデルが日常的に遭遇するゼロショットシナリオにおいて、さらなるパフォーマンス改善が制限される。
この制限に対処するために、現在の入力に基づいてスケーリング係数を動的に調整し、入力ノルム情報を保存し、データ依存の自己再スケール動的正規化を可能にすることで、モデルの表現能力を向上するSeeDNormを提案する。
バックプロパゲーションの間、SeeDNormは入力基準に従って勾配を動的に調整するRMSNormの能力を保っている。
本稿では,SeedNormのトレーニング最適化を詳細に分析し,SeeDNormの適用時に生じる潜在的な不安定性問題に対処するための対応ソリューションを提案する。
本研究では,大規模言語モデルの事前学習や教師なし・教師なしのコンピュータビジョンタスクにおいて,様々なサイズのモデルにまたがってSeeDNormの有効性を検証する。
最小限のパラメータを導入し、モデルの効率に悪影響を及ぼすことで、SeeDNormはRMSNormやLayerNormといった一般的な正規化レイヤよりも一貫して優れたパフォーマンスを実現している。
関連論文リスト
- Controllable-LPMoE: Adapting to Challenging Object Segmentation via Dynamic Local Priors from Mixture-of-Experts [16.21786310193235]
制御可能LPMoEと呼ばれる、トレーニング可能なパラメータが少ない新しい動的事前学習パラダイムを提案する。
入力画像から多種多様な局所前駆体を異種畳み込みによりキャプチャする軽量な動的混合局所前駆体抽出器を構築した。
また、コサインアラインな変形性アテンションとチャネル指向適応スケールエンハンスメントを利用した双方向インタラクションアダプタを設計する。
論文 参考訳(メタデータ) (2025-10-24T03:03:59Z) - Efficient Transformed Gaussian Process State-Space Models for Non-Stationary High-Dimensional Dynamical Systems [49.819436680336786]
本研究では,高次元非定常力学系のスケーラブルかつ柔軟なモデリングのための効率的な変換ガウス過程状態空間モデル(ETGPSSM)を提案する。
具体的には、ETGPSSMは、単一の共有GPと入力依存の正規化フローを統合し、複雑な非定常遷移ダイナミクスを捉える前に、表現的な暗黙のプロセスを生成する。
ETGPSSMは、計算効率と精度の観点から、既存のGPSSMとニューラルネットワークベースのSSMより優れています。
論文 参考訳(メタデータ) (2025-03-24T03:19:45Z) - ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models [3.7802450241986945]
LayerNormは、トレーニングの安定化とスムーズな最適化を保証するため、現代の大規模言語モデル(LLM)において重要なコンポーネントである。
本研究は、正規化自由デコーダのみのLLMにおける望ましいアクティベーション関数について検討する。
ReLUは、LayerNormフリーモデルでGELUを著しく上回り、bf 8.2%のパープレキシティ改善をもたらした。
論文 参考訳(メタデータ) (2024-10-12T20:26:01Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Deep Neural Dynamic Bayesian Networks applied to EEG sleep spindles
modeling [0.0]
本稿では,視覚的スコアリングにおいて専門家が積極的に実施する制約を組み込んだ単一チャネル脳波生成モデルを提案する。
我々は、一般化期待最大化の特別な場合として、正確に、抽出可能な推論のためのアルゴリズムを導出する。
我々は、このモデルを3つの公開データセット上で検証し、より複雑なモデルが最先端の検出器を越えられるように支援する。
論文 参考訳(メタデータ) (2020-10-16T21:48:29Z) - A Fully Tensorized Recurrent Neural Network [48.50376453324581]
重み付けされたRNNアーキテクチャを導入し、各リカレントセル内の個別の重み付け行列を共同で符号化する。
このアプローチはモデルのサイズを数桁削減するが、通常のRNNと同等あるいは優れた性能を維持している。
論文 参考訳(メタデータ) (2020-10-08T18:24:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。