論文の概要: Breaking the Conventional Forward-Backward Tie in Neural Networks: Activation Functions
- arxiv url: http://arxiv.org/abs/2509.07236v1
- Date: Mon, 08 Sep 2025 21:30:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.12877
- Title: Breaking the Conventional Forward-Backward Tie in Neural Networks: Activation Functions
- Title(参考訳): ニューラルネットにおける従来のフォワード・バックのタイを破る:アクティベーション関数
- Authors: Luigi Troiano, Francesco Gissi, Vincenzo Benedetto, Genny Tortora,
- Abstract要約: 本研究では, アクティベーション関数から得られる厳密な勾配等級は, 勾配方向が保存されている場合, ほとんど冗長であることを示す。
我々は,Heaviside ステップ関数のような,非微分可能活性化関数を持つニューラルネットワークを効果的に訓練できることを明確に示す。
- 参考スコア(独自算出の注目度): 0.1633272850273525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-based neural network training traditionally enforces symmetry between forward and backward propagation, requiring activation functions to be differentiable (or sub-differentiable) and strictly monotonic in certain regions to prevent flat gradient areas. This symmetry, linking forward activations closely to backward gradients, significantly restricts the selection of activation functions, particularly excluding those with substantial flat or non-differentiable regions. In this paper, we challenge this assumption through mathematical analysis, demonstrating that precise gradient magnitudes derived from activation functions are largely redundant, provided the gradient direction is preserved. Empirical experiments conducted on foundational architectures - such as Multi-Layer Perceptrons (MLPs), Convolutional Neural Networks (CNNs), and Binary Neural Networks (BNNs) - confirm that relaxing forward-backward symmetry and substituting traditional gradients with simpler or stochastic alternatives does not impair learning and may even enhance training stability and efficiency. We explicitly demonstrate that neural networks with flat or non-differentiable activation functions, such as the Heaviside step function, can be effectively trained, thereby expanding design flexibility and computational efficiency. Further empirical validation with more complex architectures remains a valuable direction for future research.
- Abstract(参考訳): グラディエントベースのニューラルネットワークトレーニングは、伝統的に前方と後方の伝播の対称性を強制し、一定の領域において活性化関数を微分可能(または準微分可能)とし、平坦な勾配領域を防ぐために厳密な単調性を必要とする。
この対称性は、前方の活性化と後方の勾配を密接に結びつけるもので、特にかなり平坦な領域や微分不可能な領域を除いて、活性化関数の選択を著しく制限する。
本稿では,活性化関数から導出される正確な勾配等級がほとんど冗長であることを示す数学的解析により,この仮定に挑戦する。
MLP(Multi-Layer Perceptrons)、CNN(Convolutional Neural Networks)、BNN(Binary Neural Networks)といった基礎的アーキテクチャ上で実施された実証実験により、前方対称を緩和し、より単純で確率的な代替手段で従来の勾配を置換することは学習を損なうことなく、トレーニングの安定性と効率を高めることができる。
我々は,平板あるいは非微分活性化関数を持つニューラルネットワーク,例えばHeavisideのステップ関数を効果的に訓練し,設計の柔軟性と計算効率を向上できることを示した。
より複雑なアーキテクチャによるさらなる実証的検証は、将来の研究にとって重要な方向である。
関連論文リスト
- Feature Mapping in Physics-Informed Neural Networks (PINNs) [1.9819034119774483]
本研究では, Conjugate Kernel と Neural Tangent Kernel を限定した特徴マッピング層を用いた PINN の訓練力学について検討する。
より優れた代替として,条件付き正定値ラジアル基底関数を提案する。
論文 参考訳(メタデータ) (2024-02-10T13:51:09Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - ENN: A Neural Network with DCT Adaptive Activation Functions [2.2713084727838115]
離散コサイン変換(DCT)を用いて非線形活性化関数をモデル化する新しいモデルであるExpressive Neural Network(ENN)を提案する。
このパラメータ化は、トレーニング可能なパラメータの数を低く保ち、勾配ベースのスキームに適合し、異なる学習タスクに適応する。
ENNのパフォーマンスは、いくつかのシナリオにおいて40%以上の精度のギャップを提供する、アートベンチマークの状態を上回ります。
論文 参考訳(メタデータ) (2023-07-02T21:46:30Z) - TANGOS: Regularizing Tabular Neural Networks through Gradient
Orthogonalization and Specialization [69.80141512683254]
TANGOS(Tbular Neural Gradient Orthogonalization and gradient)を紹介する。
TANGOSは、潜在ユニット属性上に構築された表の設定を正規化するための新しいフレームワークである。
提案手法は,他の一般的な正規化手法よりも優れ,サンプル外一般化性能の向上につながることを実証する。
論文 参考訳(メタデータ) (2023-03-09T18:57:13Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Exploring Linear Feature Disentanglement For Neural Networks [63.20827189693117]
Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めた。
サンプルの複雑な非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。
この現象は、現在の典型的なNNにおいて、すべての特徴がすべての非線形関数によって変換される必要があるかどうかを探求することに興味をそそる。
論文 参考訳(メタデータ) (2022-03-22T13:09:17Z) - Analytical aspects of non-differentiable neural networks [0.0]
本稿では、量子化されたニューラルネットワークの表現性と、微分不可能なネットワークに対する近似手法について論じる。
ここでは,QNN が DNN と同じ表現性を持つことを示す。
また,Heaviside型アクティベーション関数を用いて定義されたネットワークについても検討し,スムーズなネットワークによるポイントワイズ近似の結果を証明した。
論文 参考訳(メタデータ) (2020-11-03T17:20:43Z) - Investigating the interaction between gradient-only line searches and
different activation functions [0.0]
勾配専用線探索(GOLS)は、ニューラルネットワークトレーニングにおける不連続損失関数の探索方向に沿ったステップサイズを適応的に決定する。
GOLSは様々なアクティベーション機能に対して堅牢であるが,標準フィードフォワードアーキテクチャにおけるRectified Linear Unit(ReLU)アクティベーション機能に敏感であることがわかった。
論文 参考訳(メタデータ) (2020-02-23T12:28:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。