論文の概要: Stronger Normalization-Free Transformers
- arxiv url: http://arxiv.org/abs/2512.10938v1
- Date: Thu, 11 Dec 2025 18:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.562289
- Title: Stronger Normalization-Free Transformers
- Title(参考訳): より強い正規化フリー変圧器
- Authors: Mingzhi Chen, Taiming Lu, Jiachen Zhu, Mingjie Sun, Zhuang Liu,
- Abstract要約: ポイントワイド関数の本質的性質が学習と性能に与える影響について検討する。
ここで $mathrmerf(x) = Mathrmerf(x + s)$, ここで $mathrmerf(x)$ は再スケールされたガウス累積分布関数である。
以上の結果から,Derfの性能向上は,適合能力の向上よりも一般化の向上に起因することが示唆された。
- 参考スコア(独自算出の注目度): 16.10903272016748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although normalization layers have long been viewed as indispensable components of deep learning architectures, the recent introduction of Dynamic Tanh (DyT) has demonstrated that alternatives are possible. The point-wise function DyT constrains extreme values for stable convergence and reaches normalization-level performance; this work seeks further for function designs that can surpass it. We first study how the intrinsic properties of point-wise functions influence training and performance. Building on these findings, we conduct a large-scale search for a more effective function design. Through this exploration, we introduce $\mathrm{Derf}(x) = \mathrm{erf}(αx + s)$, where $\mathrm{erf}(x)$ is the rescaled Gaussian cumulative distribution function, and identify it as the most performant design. Derf outperforms LayerNorm, RMSNorm, and DyT across a wide range of domains, including vision (image recognition and generation), speech representation, and DNA sequence modeling. Our findings suggest that the performance gains of Derf largely stem from its improved generalization rather than stronger fitting capacity. Its simplicity and stronger performance make Derf a practical choice for normalization-free Transformer architectures.
- Abstract(参考訳): 正規化レイヤは長年、ディープラーニングアーキテクチャの必須コンポーネントと見なされてきたが、最近のDynamic Tanh (DyT)の導入により、代替が可能であることが実証された。
点ワイズ関数 DyT は、安定収束のために極端な値を制約し、正規化レベルのパフォーマンスに達する。
まず,ポイントワイド関数の内在的性質が学習と性能に与える影響について検討する。
これらの結果に基づいて,より効率的な関数設計を大規模に探索する。
この探索を通じて、$\mathrm{Derf}(x) = \mathrm{erf}(αx + s)$ を導入する。
DerfはLayerNorm、RMSNorm、DyTを、視覚(画像認識と生成)、音声表現、DNA配列モデリングなど幅広い領域で上回る。
以上の結果から,Derfの性能向上は,適合能力の向上よりも一般化の向上に起因することが示唆された。
その単純さとパフォーマンスの強化により、Derfは正規化のないTransformerアーキテクチャの実用的な選択となった。
関連論文リスト
- Function-on-Function Bayesian Optimization [5.200476666831395]
本稿では,入力と出力の両方が関数である目的に対応するために,新しい関数オンファンクションベイズ最適化(FFBO)フレームワークを提案する。
合成および実世界のデータに関する実験は、既存の手法よりもFFBOの優れた性能を示している。
論文 参考訳(メタデータ) (2025-11-16T21:24:57Z) - Beyond Softmax: A Natural Parameterization for Categorical Random Variables [61.709831225296305]
階層的なバイナリ分割のシーケンスで構成される関数である$textitcatnat$関数を紹介します。
実験により,提案した関数は学習効率を向上し,一貫した試験性能を特徴とするモデルが得られることを示した。
論文 参考訳(メタデータ) (2025-09-29T12:55:50Z) - Sculpting Features from Noise: Reward-Guided Hierarchical Diffusion for Task-Optimal Feature Transformation [18.670626228472877]
DIFFTは報酬誘導型生成タスクとしてフィーチャートランスフォーメーションを再定義する。
構造的かつ離散的な特徴を生成し、機能内依存関係を保持しながら、並列な機能間生成を可能にする。
予測精度とロバスト性において、最先端のベースラインを一貫して上回り、トレーニングや推論時間を大幅に低下させる。
論文 参考訳(メタデータ) (2025-05-21T06:18:42Z) - LOCAL: Learning with Orientation Matrix to Infer Causal Structure from Time Series Data [51.47827479376251]
LOCALは動的因果構造を復元するための効率的で実装が容易で制約のない手法である。
Asymptotic Causal Learning Mask (ACML) と Dynamic Graph Learning (DGPL)
合成および実世界のデータセットの実験では、LOCALが既存の手法よりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-10-25T10:48:41Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - Population Gradients improve performance across data-sets and
architectures in object classification [6.17047113475566]
ニューラルネットワーク(NN)の学習中に勾配を計算する新しい手法を提案する。
アーキテクチャ、データセット、ハイパーパラメータ値、トレーニング長、モデルサイズにわたる最終的なパフォーマンスを大幅に改善する。
私たちがテストした広範囲な状況において有効であるのに加えて、パフォーマンスの向上(例えば、F1)は他の広範なパフォーマンス改善手法のどれよりも高いか高いかのどちらかです。
論文 参考訳(メタデータ) (2020-10-23T09:40:23Z) - Evolving Normalization-Activation Layers [100.82879448303805]
我々は、うまく機能しない候補層を迅速にフィルタリングする効率的な拒絶プロトコルを開発した。
EvoNormsは、新しい正規化活性化層であり、新しい構造を持ち、時には驚くべき構造を持つ。
我々の実験は、EvoNormsがResNets、MobileNets、EfficientNetsなどの画像分類モデルでうまく機能していることを示している。
論文 参考訳(メタデータ) (2020-04-06T19:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。