論文の概要: Parallel Layer Normalization for Universal Approximation
- arxiv url: http://arxiv.org/abs/2505.13142v1
- Date: Mon, 19 May 2025 14:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.638471
- Title: Parallel Layer Normalization for Universal Approximation
- Title(参考訳): ユニバーサル近似のための並列層正規化
- Authors: Yunhao Ni, Yuhe Liu, Wenxin Sun, Yitong Tang, Yuxin Guo, Peilin Feng, Wenjun Wu, Lei Huang,
- Abstract要約: 普遍近似定理(Universal Approximation theorem, UAT)はディープニューラルネットワーク(DNN)の基本理論である
理論上は、無限大のネットワークが普遍近似能力を持つことを証明している。
我々は, 並列層正規化(PLN)が, 深層ニューラルネットワークの活性化機能と正規化の両方として機能することを確認した。
- 参考スコア(独自算出の注目度): 6.723179803370419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Universal approximation theorem (UAT) is a fundamental theory for deep neural networks (DNNs), demonstrating their powerful representation capacity to represent and approximate any function. The analyses and proofs of UAT are based on traditional network with only linear and nonlinear activation functions, but omitting normalization layers, which are commonly employed to enhance the training of modern networks. This paper conducts research on UAT of DNNs with normalization layers for the first time. We theoretically prove that an infinitely wide network -- composed solely of parallel layer normalization (PLN) and linear layers -- has universal approximation capacity. Additionally, we investigate the minimum number of neurons required to approximate $L$-Lipchitz continuous functions, with a single hidden-layer network. We compare the approximation capacity of PLN with traditional activation functions in theory. Different from the traditional activation functions, we identify that PLN can act as both activation function and normalization in deep neural networks at the same time. We also find that PLN can improve the performance when replacing LN in transformer architectures, which reveals the potential of PLN used in neural architectures.
- Abstract(参考訳): 普遍近似定理(Universal Approximation theorem、UAT)はディープニューラルネットワーク(DNN)の基本理論であり、任意の関数を表現および近似するための強力な表現能力を示す。
UATの分析と証明は、線形および非線形の活性化関数のみを持つ従来のネットワークに基づいているが、現代のネットワークのトレーニングを強化するために一般的に用いられる正規化層を省略する。
本稿では, DNN の正規化層を用いた UAT の研究を行った。
理論的には、並列層正規化(PLN)と線形層のみからなる無限に広いネットワークが、普遍的な近似能力を持つことを証明している。
さらに、1つの隠れ層ネットワークで$L$-Lipchitz連続関数を近似するために必要なニューロンの最小数について検討する。
PLNの近似能力を理論上の従来の活性化関数と比較する。
従来のアクティベーション機能と異なり、PLNは深部ニューラルネットワークの活性化機能と正規化の両方を同時に行うことができる。
また,ニューラルアーキテクチャにおけるPLNの可能性を明らかにするトランスフォーマーアーキテクチャにおいて,PLNがLNを置き換える際の性能向上も見出した。
関連論文リスト
- Neural Network Verification with Branch-and-Bound for General Nonlinearities [63.39918329535165]
ブランチ・アンド・バウンド(BaB)は、ニューラルネットワーク(NN)検証において最も効果的な手法の一つである。
我々は、一般的な非線形性にBaBを実行し、一般的なアーキテクチャでNNを検証する汎用フレームワークGenBaBを開発した。
我々のフレームワークは、一般的な非線形グラフの検証を可能にし、単純なNNを超えた検証アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-05-31T17:51:07Z) - Improving the Expressive Power of Deep Neural Networks through Integral
Activation Transform [12.36064367319084]
従来の完全接続型ディープニューラルネットワーク(DNN)を連続幅の概念により一般化する。
IAT-ReLUは連続基底関数を用いる場合に連続的な活性化パターンを示す。
数値実験により,IAT-ReLUはトレーニング性やスムーズさの点で,通常のReLUよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-19T20:23:33Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Exploring the Approximation Capabilities of Multiplicative Neural
Networks for Smooth Functions [9.936974568429173]
対象関数のクラスは、一般化帯域制限関数とソボレフ型球である。
以上の結果から、乗法ニューラルネットワークは、これらの関数をはるかに少ない層とニューロンで近似できることを示した。
これらの結果は、乗法ゲートが標準フィードフォワード層より優れ、ニューラルネットワーク設計を改善する可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-01-11T17:57:33Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - On Approximation Capabilities of ReLU Activation and Softmax Output
Layer in Neural Networks [6.852561400929072]
我々は、ReLUアクティベーション関数を用いた十分に大きなニューラルネットワークが任意の精度でL1$の任意の関数を近似できることを証明した。
また、非線形ソフトマックス出力層を用いた十分大きなニューラルネットワークは、任意の指標関数を$L1$で近似することも示している。
論文 参考訳(メタデータ) (2020-02-10T19:48:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。