論文の概要: When Does Removing LayerNorm Help? Activation Bounding as a Regime-Dependent Implicit Regularizer
- arxiv url: http://arxiv.org/abs/2604.23434v1
- Date: Sat, 25 Apr 2026 20:12:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.3345
- Title: When Does Removing LayerNorm Help? Activation Bounding as a Regime-Dependent Implicit Regularizer
- Title(参考訳): 層 Norm の除去はいつ役立つか? 正規化依存型命令型正規化器としての活性化バウンディング
- Authors: Lucky Verma,
- Abstract要約: Dynamic Tanh (DyT) は学習した tanh (alpha x) で活性化をバウンディングすることで LayerNorm を除去する
この境界は規則に依存した暗黙正則化子であり、一様に有利な置換子ではないことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic Tanh (DyT) removes LayerNorm by bounding activations with a learned tanh(alpha x). We show that this bounding is a regime-dependent implicit regularizer, not a uniformly beneficial replacement. Across GPT-2-family models spanning 64M to 3.78B parameters and 1M to 118M tokens, with Llama and ViT cross-checks, DyT improves validation loss by 27.3% at 64M/1M but worsens it by 18.8% at 64M/118M; the 1M benefit vanishes with capacity (+1.7% at 3.78B), while the 118M penalty reaches +27.9%. The mechanism is measurable: 49% of DyT activations saturate at 1M versus 23% at 118M, and a 500-step saturation heuristic classifies DyT's sign with 75% raw in-sample accuracy on the 12-cell GPT-2 calibration set (AUC 0.75; 64% when adding Scale 5 stress cells), correctly labels 3/3 Llama checks, but only reaches 50% raw leave-one-scale-out accuracy. Three interventions support the bounding explanation: HardTanh reproduces the regime pattern, increasing alpha at 118M monotonically reduces DyT's penalty, and vanilla+dropout(p=0.5) matches DyT's data-rich loss. We also localize Llama-DyT collapse to SwiGLU gating, where saturation separates collapse from convergence in a 3-seed component ablation (r=0.94). Scope: all experiments are compute-limited (T/P < 1.84), below Chinchilla-optimal training.
- Abstract(参考訳): Dynamic Tanh (DyT) は、学習した tanh (alpha x) で活性化をバウンディングすることで LayerNorm を除去する。
この境界は規則に依存した暗黙正則化子であり、一様に有利な置換子ではないことを示す。
64Mから3.78Bのパラメータと1Mから118Mのトークンを含むGPT-2ファミリーモデル全体で、LlamaとViTのクロスチェックにより、DyTは検証損失を64M/1Mで27.3%改善するが、64M/118Mで18.8%悪化させる。
DyTアクティベーションの49%は1Mで飽和し、118Mで23%であり、500段階の飽和ヒューリスティックは12セルのGPT-2キャリブレーションセット(AUC 0.75; 64%)でDyTのサインを75%のサンプル内精度で分類する。
HardTanhはレギュラーパターンを再現し、118Mでのα増加はDyTのペナルティを単調に減少させ、vanilla+dropout(p=0.5)はDyTのデータ豊富な損失と一致する。
また,Llama-DyT崩壊をSwiGLUゲーティングに局在させ,飽和度が3シード成分アブレーション(r=0.94)の収束から崩壊を分離する。
スコープ: すべての実験は計算制限(T/P < 1.84)であり、チンチラ最適トレーニング以下である。
関連論文リスト
- TEMPO: Scaling Test-time Training for Large Reasoning Models [87.61789183311856]
テストタイムトレーニング(TTT)は、推論時間中にラベルのないテストインスタンスにモデルパラメータを適用する。
TTTフレームワークであるTEMPOを提案する。これは、ラベル付きデータセット上で定期的な批評家の再検討を行い、ラベル付き質問に対するポリシー修正をインターリーブする。
論文 参考訳(メタデータ) (2026-04-21T10:01:04Z) - THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture [0.0]
THEIAは2.75Mのモジュラー・ニューラルアーキテクチャで、外部のシンボル推論や手書きのK3ゲートプリミティブを使わずにタスクデータから完全Kleene 3値論理(K3)真理表を学習する。
トランスフォーマーのベースラインは39の規則すべてで99%に到達し、フラットは0.04pp以内のフェーズ1の精度でTheIAと一致している。
論文 参考訳(メタデータ) (2026-04-13T10:44:15Z) - Hierarchy-Guided Topology Latent Flow for Molecular Graph Generation [44.50339042016925]
本稿では,グローバルコンテキストに対する潜在的マルチスケールプランを用いた3次元座標を用いた結合グラフを生成するプランナー・エグゼクタモデルを提案する。
HLTFは98.8%の原子安定性と92.9%の有効・均一性を達成し、PoseBustersの妥当性は94.0%(+0.9)に向上した。
GEOM-DRUGSでは、HLTFは後処理なしで85.5%/85.0%の妥当性/バリッド・ユニク・ノーベル、標準化された緩和後の92.2%/91.2%を達成している。
論文 参考訳(メタデータ) (2026-03-28T03:48:13Z) - Boosting LLMs for Mutation Generation [35.905252475438466]
SMART(Semantic Mutation with Adaptive Retrieval and Tuning)を紹介する。
Defects4J と ConDefects のデータセットから1,991 個の実世界の Java バグを使用した SMART の実証的研究を行った。
その結果、SMARTは変異の妥当性、有効性、効率を大幅に改善することが明らかとなった。
論文 参考訳(メタデータ) (2026-03-25T17:42:17Z) - Activation Outliers in Transformer Quantization: Reproduction, Statistical Analysis, and Deployment Tradeoffs [0.0]
変圧器のポストトレーニング量子化(PTQ)は、構造化されたアクティベーションアウトリアによる精度の低下に悩まされていることが知られている。
本稿では,QNLIで微調整されたBERTベースにおける再現可能な経験的再現と,その現象のシステムレベルの拡張について述べる。
論文 参考訳(メタデータ) (2026-03-04T17:26:29Z) - Scalable Multi-Task Low-Rank Model Adaptation [43.22544779625565]
マルチタスク低ランク適応(LoRA)を多数のタスクに拡張すると、破滅的なパフォーマンス劣化を引き起こす。
規則化や動的ルーティングのような既存のソリューションは、基本的なトレードオフによって制約されるため、スケールで失敗するのです。
3つの新しい設計を持つスケーラブルなソリューションであるmtLoRAを提案する。
論文 参考訳(メタデータ) (2026-03-02T06:57:11Z) - Diversity Is All You Need for Contrastive Learning: Spectral Bounds on Gradient Magnitudes [4.873362301533824]
我々は、アライメント、温度、バッチスペクトルによって正方形InfoNCE勾配ノルムを束縛する非漸近スペクトルバンドを導出する。
In-batch Whiteningは等方性を促進し、(1.37時間)50ステップの勾配分散を減少させる
論文 参考訳(メタデータ) (2025-10-07T10:35:58Z) - Impact of Labeling Inaccuracy and Image Noise on Tooth Segmentation in Panoramic Radiographs using Federated, Centralized and Local Learning [46.232038247686745]
フェデレートラーニング(FL)は、歯科診断AIにおけるプライバシー制約、不均一なデータ品質、一貫性のないラベル付けを緩和する。
複数のデータ破損シナリオを対象としたパノラマX線撮影において,FLと集中学習(CL)と局所学習(LL)を比較した。
論文 参考訳(メタデータ) (2025-09-08T11:07:47Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。