論文の概要: Subcritical Signal Propagation at Initialization in Normalization-Free Transformers
- arxiv url: http://arxiv.org/abs/2604.11890v1
- Date: Mon, 13 Apr 2026 18:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.04272
- Title: Subcritical Signal Propagation at Initialization in Normalization-Free Transformers
- Title(参考訳): 正規化自由変換器の初期化時のサブクリティカル信号伝搬
- Authors: Sergey Alekseev,
- Abstract要約: 平均部分ジャコビアンノルム(APJN)による変圧器の信号伝搬の研究
我々は、アクティベーション統計の双方向関係と層間におけるAPJNの繰り返し関係を導出することにより、アテンションと置換対称な入力トークンを持つ変換器にAPJN分析を拡張した。
我々の理論は、深度でのAPJNの挙動が深度変換器で測定されたAPJNとどのように一致しているかを予測する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study signal propagation at initialization in transformers through the averaged partial Jacobian norm (APJN), a measure of gradient amplification across layers. We extend APJN analysis to transformers with bidirectional attention and permutation-symmetric input token configurations by deriving recurrence relations for activation statistics and APJNs across layers. Our theory predicts how attention modifies the asymptotic behavior of the APJN at large depth and matches APJNs measured in deep vision transformers. The criticality picture known from residual networks carries over to transformers: the pre-LayerNorm architecture exhibits power-law APJN growth, whereas transformers with LayerNorm replaced by elementwise $\tanh$-like nonlinearities have stretched-exponential APJN growth, indicating that the latter are subcritical. Applied to Dynamic Tanh (DyT) and Dynamic erf (Derf) transformers, the theory explains why these architectures can be more sensitive to initialization and optimization choices and require careful tuning for stable training.
- Abstract(参考訳): 層間勾配増幅の指標である平均部分ジャコビアンノルム(APJN)による変圧器の初期化時の信号伝搬について検討した。
我々は、アクティベーション統計と層間APJNの繰り返し関係を導出することにより、双方向の注意と置換対称な入力トークン構成を持つ変換器にAPJN分析を拡張した。
我々の理論は,APJNの深度での漸近的挙動の注意がどのように変化するかを予測し,深部視覚変換器で測定されたAPJNと一致させる。
一方、LayerNorm アーキテクチャでは、LayerNorm を要素的に $\tanh$-like な非線形性に置き換えた変換器は、指数関数的な APJN 成長を延長し、後者が亜臨界であることを示唆している。
Dynamic Tanh (DyT) と Dynamic erf (Derf) のトランスフォーマーに適用されたこの理論は、これらのアーキテクチャが初期化と最適化の選択により敏感であり、安定したトレーニングのために注意深いチューニングを必要とする理由を説明する。
関連論文リスト
- A Constrained Optimization Perspective of Unrolled Transformers [77.12297732942095]
我々は、最適化降下アルゴリズムのように振る舞う変圧器の訓練のための制約付き最適化フレームワークを導入する。
拘束型変圧器は摂動の強靭性を実現し,より高い分布分布一般化を維持する。
論文 参考訳(メタデータ) (2026-01-24T02:12:39Z) - Wavy Transformer [5.4806374384787695]
本稿では,第2次波動力学に基づく新しい注目層を構成するWavy Transformerを提案する。
また,チェーンルールの下での物理的状態-速度関係を維持するために,フィードフォワードネットワークと正規化層を導入する。
論文 参考訳(メタデータ) (2025-08-18T10:03:38Z) - Graded Transformers [0.0]
そこで我々は,ベクトル空間上のグレーディングを通じて帰納バイアスを埋め込む新しいシーケンスモデルである Graded Transformer フレームワークを紹介した。
このフレームワークは、以前のモデルの固定グレードの制限を克服し、適応的な特徴優先順位付けを可能にする。
Graded Transformerは、階層的学習とニューロシンボリック推論に対する数学的に原則化されたアプローチを提供する。
論文 参考訳(メタデータ) (2025-07-27T02:34:08Z) - Equivariant Neural Functional Networks for Transformers [2.3963215252605172]
本稿では,トランスアーキテクチャのためのニューラルネットワーク(NFN)を体系的に検討する。
NFNは、ディープニューラルネットワーク(DNN)の重み、勾配、またはスパーシティパターンを入力データとして扱う特殊なニューラルネットワークである。
論文 参考訳(メタデータ) (2024-10-05T15:56:57Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Investigating Recurrent Transformers with Dynamic Halt [64.862738244735]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。
提案手法を拡張・結合する新しい手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-02-01T19:47:31Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - Effects of Parameter Norm Growth During Transformer Training: Inductive
Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。
パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。
以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文 参考訳(メタデータ) (2020-10-19T17:40:38Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。