Fugu-MT 論文翻訳(概要): Deriving Activation Functions via Integration

論文の概要: Deriving Activation Functions via Integration

arxiv url: http://arxiv.org/abs/2411.13010v1
Date: Wed, 20 Nov 2024 03:24:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.353297
Title: Deriving Activation Functions via Integration
Title（参考訳）: 統合による活性化関数の導出
Authors: Allen Hao Huang,
Abstract要約: 活性化関数は、ディープニューラルネットワークに非線形性を導入する上で重要な役割を果たす。そこで,本研究では,それらの勾配に着目し,統合によって対応する関数を導出することにより,活性化関数を設計する新しい手法を提案する。本研究は,ELU活性化関数に適用したトレーニング可能なアフィン変換を統合することで導かれる,訓練可能な一方向活性化関数である指数線形ユニット(xIELU)の積分を導入する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Activation functions play a crucial role in introducing non-linearities to deep neural networks. We propose a novel approach to designing activation functions by focusing on their gradients and deriving the corresponding functions through integration. Our work introduces the Expanded Integral of the Exponential Linear Unit (xIELU), a trainable piecewise activation function derived by integrating trainable affine transformations applied on the ELU activation function. xIELU combines two key gradient properties: a trainable and linearly increasing gradient for positive inputs, similar to ReLU$^2$, and a trainable negative gradient flow for negative inputs, akin to xSiLU. Conceptually, xIELU can be viewed as extending ReLU$^2$ to effectively handle negative inputs. In experiments with 1.1B parameter Llama models trained on 126B tokens of FineWeb Edu, xIELU achieves lower perplexity compared to both ReLU$^2$ and SwiGLU when matched for the same compute cost and parameter count.
Abstract（参考訳）: 活性化関数は、ディープニューラルネットワークに非線形性を導入する上で重要な役割を果たす。そこで,本研究では,それらの勾配に着目し,統合によって対応する関数を導出することにより,活性化関数を設計する新しい手法を提案する。 ELU 活性化関数に適用されたトレーニング可能なアフィン変換を統合することで導かれる、訓練可能な断片的活性化関数である指数線形ユニット(xIELU)の拡張積分を導入する。 xIELUは2つの重要な勾配特性、すなわち、ReLU$^2$と似た正の入力に対するトレーニング可能および線形に増加する勾配と、xSiLUと同様の負の入力に対するトレーニング可能な負の勾配フローを組み合わせる。概念的には、xIELU は負の入力を効果的に処理するために ReLU$^2$ を拡張すると見なすことができる。 FineWeb Eduの126Bトークンでトレーニングされた1.1Bパラメータを用いた実験では、同じ計算コストとパラメータ数で一致した場合、xIELUはReLU$^2$とSwiGLUと比較して低いパープレキシティを実現する。

関連論文リスト

Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文参考訳（メタデータ） (2025-12-28T05:48:55Z)
Beyond Softmax: A Natural Parameterization for Categorical Random Variables [61.709831225296305]
階層的なバイナリ分割のシーケンスで構成される関数である$textitcatnat$関数を紹介します。実験により,提案した関数は学習効率を向上し,一貫した試験性能を特徴とするモデルが得られることを示した。
論文参考訳（メタデータ） (2025-09-29T12:55:50Z)
Stochastic activations [53.40901433014535]
この戦略は、大規模言語モデルのフィードフォワード層における複数の非線形関数をランダムに選択する。我々は,(1)事前学習中にアクティベーションを使用し,RELUを用いてモデルを微調整する。この戦略は、温度スケーリングと組み合わせた最良の決定論的非線形性(SILU)よりもわずかに劣る。
論文参考訳（メタデータ） (2025-09-26T13:53:56Z)
ULU: A Unified Activation Function [0.0]
ULUは正と負の入力を異なる方法で扱う。 ULUは画像分類やオブジェクト検出タスクでReLUとMishを大きく上回っている。
論文参考訳（メタデータ） (2025-08-07T06:58:22Z)
Gompertz Linear Units: Leveraging Asymmetry for Enhanced Learning Dynamics [39.0860823332923]
GoLU は $mathrmGoLU(x) = x, MathrmGompertz(x)$, wheremathrmGompertz(x) = e-e-x$ と定義される新しい自己ゲート活性化関数である。 GoLUの最先端のアクティベーション関数に対する優れたパフォーマンスは、既存のアクティベーション関数に対する堅牢な代替として、GoLUを強調している。
論文参考訳（メタデータ） (2025-02-05T22:32:22Z)
Activation function optimization method: Learnable series linear units (LSLUs) [12.089173508371246]
LSLU (Learnable Series Linear Units) と呼ばれる直列学習可能なac-tivation関数を提案する。この方法は、精度を向上しつつ、ディープラーニングネットワークを単純化する。 CIFAR10, CIFAR100および特定のタスクデータセット(例えばSilkworm)上でのLSLUの性能を評価する。
論文参考訳（メタデータ） (2024-08-28T11:12:27Z)
A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。 i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文参考訳（メタデータ） (2024-04-18T16:46:08Z)
Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文参考訳（メタデータ） (2024-03-11T09:10:37Z)
ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文参考訳（メタデータ） (2024-02-06T08:45:51Z)
Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文参考訳（メタデータ） (2023-10-20T12:45:12Z)
Parametric Leaky Tanh: A New Hybrid Activation Function for Deep Learning [0.0]
活性化機能(AF)はディープニューラルネットワーク(DNN)の重要な構成要素である本稿では,Tanh と Leaky ReLU の双方の活性化関数の強みを組み合わせたハイブリッド活性化関数を提案する。 PLanh はすべての点で微分可能であり、負の入力に対する非ゼロ勾配を保証することで 'dying ReLU' 問題に対処する。
論文参考訳（メタデータ） (2023-08-11T08:59:27Z)
The Implicit Bias of Minima Stability in Multivariate Shallow ReLU Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文参考訳（メタデータ） (2023-06-30T09:17:39Z)
Saturated Non-Monotonic Activation Functions [21.16866749728754]
SGELU, SSiLU, SMishはGELU, SiLU, Mishの負の部分とReLUの正の部分から構成される。 CIFAR-100における画像分類実験の結果,提案するアクティベーション関数は,複数のディープラーニングアーキテクチャにおいて,高い有効性と,最先端のベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-05-12T15:01:06Z)
TaLU: A Hybrid Activation Function Combining Tanh and Rectified Linear Unit to Enhance Neural Networks [1.3477333339913569]
TaLUはTanhとReLUを組み合わせた活性化機能である。 MNIST と CIFAR-10 の深層学習モデルについて検討した。
論文参考訳（メタデータ） (2023-05-08T01:13:59Z)
Graph-adaptive Rectified Linear Unit for Graph Neural Networks [64.92221119723048]
グラフニューラルネットワーク(GNN)は、従来の畳み込みを非ユークリッドデータでの学習に拡張することで、目覚ましい成功を収めた。本稿では,周辺情報を利用した新しいパラメトリックアクティベーション機能であるグラフ適応整流線形ユニット(GRELU)を提案する。我々は,GNNのバックボーンと様々な下流タスクによって,プラグアンドプレイGRELU法が効率的かつ効果的であることを示す包括的実験を行った。
論文参考訳（メタデータ） (2022-02-13T10:54:59Z)
Dynamic ReLU [74.973224160508]
本稿では、すべてのインプット要素上のハイパー関数によって生成されるパラメータの動的入力である動的ReLU(DY-ReLU)を提案する。静的に比較すると、DY-ReLUは余分な計算コストは無視できるが、表現能力ははるかに高い。単にDY-ReLUをMobileNetV2に使用することで、ImageNet分類のトップ-1の精度は72.0%から76.2%に向上し、追加のFLOPは5%に留まった。
論文参考訳（メタデータ） (2020-03-22T23:45:35Z)
Soft-Root-Sign Activation Function [21.716884634290516]
SRS(Soft-Root-Sign)は滑らかで、非単調で有界である。 ReLUとは対照的に、SRSは独立したトレーニング可能なパラメータのペアによって出力を適応的に調整することができる。我々のSRSはReLUや他の最先端の非線形性と一致または超えます。
論文参考訳（メタデータ） (2020-03-01T18:38:11Z)
Investigating the interaction between gradient-only line searches and different activation functions [0.0]
勾配専用線探索(GOLS)は、ニューラルネットワークトレーニングにおける不連続損失関数の探索方向に沿ったステップサイズを適応的に決定する。 GOLSは様々なアクティベーション機能に対して堅牢であるが,標準フィードフォワードアーキテクチャにおけるRectified Linear Unit(ReLU)アクティベーション機能に敏感であることがわかった。
論文参考訳（メタデータ） (2020-02-23T12:28:27Z)
Gaussian Error Linear Units (GELUs) [58.195342948092964]
本稿では,入力の重み付けを行うニューラルネットワークアクティベーション関数を提案する。コンピュータビジョン、自然言語処理、音声タスクのすべてにおいて、パフォーマンスが改善されている。
論文参考訳（メタデータ） (2016-06-27T19:20:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。