論文の概要: Rational Neural Networks have Expressivity Advantages
- arxiv url: http://arxiv.org/abs/2602.12390v1
- Date: Thu, 12 Feb 2026 20:33:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.742849
- Title: Rational Neural Networks have Expressivity Advantages
- Title(参考訳): 合理性ニューラルネットワークは表現力に長けている
- Authors: Maosen Tang, Alex Townsend,
- Abstract要約: トレーニング可能な低次有理活性化関数を持つニューラルネットワークについて検討する。
より表現力が高く, パラメータ効率が良く, よりスムーズなアクティベーションが期待できる。
- 参考スコア(独自算出の注目度): 6.180619136976129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study neural networks with trainable low-degree rational activation functions and show that they are more expressive and parameter-efficient than modern piecewise-linear and smooth activations such as ELU, LeakyReLU, LogSigmoid, PReLU, ReLU, SELU, CELU, Sigmoid, SiLU, Mish, Softplus, Tanh, Softmin, Softmax, and LogSoftmax. For an error target of $\varepsilon>0$, we establish approximation-theoretic separations: Any network built from standard fixed activations can be uniformly approximated on compact domains by a rational-activation network with only $\mathrm{poly}(\log\log(1/\varepsilon))$ overhead in size, while the converse provably requires $Ω(\log(1/\varepsilon))$ parameters in the worst case. This exponential gap persists at the level of full networks and extends to gated activations and transformer-style nonlinearities. In practice, rational activations integrate seamlessly into standard architectures and training pipelines, allowing rationals to match or outperform fixed activations under identical architectures and optimizers.
- Abstract(参考訳): トレーニング可能な低次有理アクティベーション関数を持つニューラルネットワークについて検討し、ELU、LeakyReLU、LogSigmoid、PRELU、ReLU、SELU、CELU、SiLU、Mish、Softplus、Tanh、Softmin、Softmax、LogSoftmaxといった現代の一方向線形および滑らかなアクティベーションよりも、より表現力があり、パラメータ効率が高いことを示す。
標準的な固定されたアクティベーションから構築されたネットワークは、$\mathrm{poly}(\log\log(1/\varepsilon)$のオーバヘッドしか持たない有理アクティベーションネットワークによって、コンパクトなドメイン上で均一に近似することができるが、逆は、最悪の場合には$Ω(\log(1/\varepsilon)$のパラメータを必要とする。
この指数的ギャップはフルネットワークのレベルで持続し、ゲート活性化やトランスフォーマースタイルの非線形性にまで拡張する。
実際には、合理的なアクティベーションは標準アーキテクチャとトレーニングパイプラインにシームレスに統合され、同じアーキテクチャとオプティマイザの下で、合理的なアクティベーションが一致または向上する。
関連論文リスト
- Efficient High-Accuracy PDEs Solver with the Linear Attention Neural Operator [2.1595890347557756]
我々は新しいタイプのニューラル演算子、リニアアテンションニューラル演算子(LANO)を提案する。
LANOはエージェントベースの機構を通じて注意を再構築することでスケーラビリティと高精度の両立を実現している。
実証的には、LANOは、スライスベースのソフトマックスアテンションを備えたTransolverを含む最先端のニューラルネットワークPDEソルバを超越している。
論文 参考訳(メタデータ) (2025-10-19T13:03:09Z) - Topology-Aware Activation Functions in Neural Networks [0.0]
本研究では、ニューラルネットワークがトレーニング中にデータトポロジを操作する能力を高める新しいアクティベーション機能について検討する。
我々は、トポロジの「カット」機能を導入した$mathrmSmoothSplit$と$mathrmParametricSplit$を提案する。
ニューラルネットワークアーキテクチャの進展におけるトポロジカル・アウェア・アクティベーション機能の可能性について検討した。
論文 参考訳(メタデータ) (2025-07-17T07:48:36Z) - Extension of Symmetrized Neural Network Operators with Fractional and Mixed Activation Functions [0.0]
本稿では, 分数および混合活性化関数を組み込むことにより, 対称性を持つニューラルネットワーク演算子への新たな拡張を提案する。
本フレームワークでは、アクティベーション関数に分数指数を導入し、適応的な非線形近似を精度良く実現する。
論文 参考訳(メタデータ) (2025-01-17T14:24:25Z) - HyperZ$\cdot$Z$\cdot$W Operator Connects Slow-Fast Networks for Full
Context Interaction [0.0]
自己注意機構は、ドット製品ベースのアクティベーションを通じてプログラムされた大きな暗黙の重み行列を利用して、訓練可能なパラメータがほとんどないため、長いシーケンスモデリングを可能にする。
本稿では,ネットワークの各層におけるコンテキストの完全な相互作用を実現するために,大きな暗黙のカーネルを用いて残差学習を破棄する可能性について検討する。
このモデルにはいくつかの革新的なコンポーネントが組み込まれており、遅いネットワークを更新するための局所的なフィードバックエラー、安定なゼロ平均機能、より高速なトレーニング収束、より少ないモデルパラメータなど、優れた特性を示している。
論文 参考訳(メタデータ) (2024-01-31T15:57:21Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Moderate Adaptive Linear Units (MoLU) [0.0]
深層ニューラルネットワークの活性化関数として,f(x)=x times (1+tanh(x))/2。
MoLUは数学的エレガンスと経験的有効性を組み合わせて、予測精度、収束速度、計算効率の点で優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-27T11:55:24Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - Training Certifiably Robust Neural Networks with Efficient Local
Lipschitz Bounds [99.23098204458336]
認証された堅牢性は、安全クリティカルなアプリケーションにおいて、ディープニューラルネットワークにとって望ましい性質である。
提案手法は,MNISTおよびTinyNetデータセットにおける最先端の手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-11-02T06:44:10Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。