論文の概要: ULU: A Unified Activation Function
- arxiv url: http://arxiv.org/abs/2508.05073v1
- Date: Thu, 07 Aug 2025 06:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.731333
- Title: ULU: A Unified Activation Function
- Title(参考訳): ULU: 統一活性化関数
- Authors: Simin Huo,
- Abstract要約: ULUは正と負の入力を異なる方法で扱う。
ULUは画像分類やオブジェクト検出タスクでReLUとMishを大きく上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose \textbf{ULU}, a novel non-monotonic, piecewise activation function defined as $\{f(x;\alpha_1),x<0; f(x;\alpha_2),x>=0 \}$, where $f(x;\alpha)=0.5x(tanh(\alpha x)+1),\alpha >0$. ULU treats positive and negative inputs differently. Extensive experiments demonstrate ULU significantly outperforms ReLU and Mish across image classification and object detection tasks. Its variant Adaptive ULU (\textbf{AULU}) is expressed as $\{f(x;\beta_1^2),x<0; f(x;\beta_2^2),x>=0 \}$, where $\beta_1$ and $\beta_2$ are learnable parameters, enabling it to adapt its response separately for positive and negative inputs. Additionally, we introduce the LIB (Like Inductive Bias) metric from AULU to quantitatively measure the inductive bias of the model.
- Abstract(参考訳): 単調でない新しい活性化関数である \textbf{ULU} を $\{f(x;\alpha_1),x<0; f(x;\alpha_2),x>=0 \}$ と定義し、$f(x;\alpha)=0.5x(tanh(\alpha x)+1),\alpha >0$ とする。
ULUは正と負の入力を異なる方法で扱う。
大規模な実験により、ULUは画像分類や物体検出タスクでReLUとMishを大きく上回っている。
その変種であるAdaptive ULU (\textbf{AULU}) は $\{f(x;\beta_1^2),x<0; f(x;\beta_2^2),x>=0 \}$ と表現される。
さらに、モデルの帰納バイアスを定量的に測定するために、AULUのLIB(Like Inductive Bias)メトリクスを導入する。
関連論文リスト
- Surrogate to Poincaré inequalities on manifolds for dimension reduction in nonlinear feature spaces [49.1574468325115]
連続微分可能な関数 $u:mathbbRd rightarrow mathbbRm$ を $g:mathbbRd rightarrow mathbbRm$, $mleq d$, $f : mathbbRm rightarrow mathbbRR$ という関数の合成によって近似することを目指している。
固定された$g$に対して、評価を含む古典回帰法を用いて$f$を構築する。
論文 参考訳(メタデータ) (2025-05-03T12:37:27Z) - Gompertz Linear Units: Leveraging Asymmetry for Enhanced Learning Dynamics [39.0860823332923]
GoLU は $mathrmGoLU(x) = x, MathrmGompertz(x)$, where $mathrmGompertz(x) = e-e-x$ と定義される新しい自己ゲート活性化関数である。
GoLUは最先端のアクティベーション関数よりも優れており、既存のアクティベーション関数の強力な代替品として確立されている。
論文 参考訳(メタデータ) (2025-02-05T22:32:22Z) - Deriving Activation Functions Using Integration [8.345753173238956]
本稿では、訓練可能なアフィン変換を統合することで導かれる、訓練可能な部分的活性化関数である指数線形ユニットの拡張積分(xIELU)を紹介する。
xIELUは、(1)正の入力に対してトレーニング可能で線形に増大する勾配(reLU$2$)と(2)拡張SiLU(xSiLU)にインスパイアされた負の入力に対して負の値を取ることができる訓練可能勾配(reLU$2$)の2つの重要な性質を組み合わせる。
FineWeb Eduの125Bトークンでトレーニングされた1.1Bおよび3BパラメータLlamaモデルによる実験では、xIELUはより低い値を達成する。
論文 参考訳(メタデータ) (2024-11-20T03:24:21Z) - IT$^3$: Idempotent Test-Time Training [95.78053599609044]
ディープラーニングモデルは、トレーニングデータとテストデータの間の分散シフトのために、現実世界の環境にデプロイする際に苦労することが多い。
Idempotent Test-Time Training (IT$3$) は、現在のテストインスタンスのみを使用して、分散シフトへのオンザフライ適応を可能にする新しいアプローチである。
この結果から,イデオポテンスはドメインやアーキテクチャをまたいで一般化するテスト時間適応の普遍的原理を提供すると考えられる。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - TaLU: A Hybrid Activation Function Combining Tanh and Rectified Linear
Unit to Enhance Neural Networks [1.3477333339913569]
TaLUはTanhとReLUを組み合わせた活性化機能である。
MNIST と CIFAR-10 の深層学習モデルについて検討した。
論文 参考訳(メタデータ) (2023-05-08T01:13:59Z) - Layered State Discovery for Incremental Autonomous Exploration [106.37656068276901]
Layered Autonomous Exploration (LAE) は、$tildemathcalO(LSrightarrow_LAln12(Srightarrow_LAln12(Srightarrow_LAln12(Srightarrow_LAln12(Srightar row_LAln12)Srightarrow_LAln12(Srightarrow_LAln12)Srightarrow_LAln12(Srightarrow_LAln12)のサンプル複雑性を達成するAXの新しいアルゴリズムである。
論文 参考訳(メタデータ) (2023-02-07T22:58:12Z) - Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。
我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文 参考訳(メタデータ) (2022-03-18T18:50:52Z) - Feature Cross Search via Submodular Optimization [58.15569071608769]
機能工学の基本的な基礎として機能横断探索について研究する。
この問題に対して単純なgreedy $(1-1/e)$-approximationアルゴリズムが存在することを示す。
論文 参考訳(メタデータ) (2021-07-05T16:58:31Z) - Submodular + Concave [53.208470310734825]
第一次最適化法が凹関数の最大目的値に収束できることはよく確立されている。
本研究では、滑らかな函数凸体(英語版)の行列式を$F(x) = G(x) +C(x)$で始める。
このクラスの函数は、保証がないような凹凸函数と連続DR-部分モジュラ函数の両方の拡張である。
論文 参考訳(メタデータ) (2021-06-09T01:59:55Z) - Nonparametric Learning of Two-Layer ReLU Residual Units [22.870658194212744]
本稿では,線形整列ユニット(ReLU)を活性化した2層残基を学習するアルゴリズムについて述べる。
解析最小化器はそのパラメータと非線形性の観点から、正確な地上構造ネットワークを表現できる機能として層ワイドな目的を設計する。
我々は,アルゴリズムの統計的強い一貫性を証明し,実験によるアルゴリズムの堅牢性とサンプル効率を実証する。
論文 参考訳(メタデータ) (2020-08-17T22:11:26Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z) - Gaussian Error Linear Units (GELUs) [58.195342948092964]
本稿では,入力の重み付けを行うニューラルネットワークアクティベーション関数を提案する。
コンピュータビジョン、自然言語処理、音声タスクのすべてにおいて、パフォーマンスが改善されている。
論文 参考訳(メタデータ) (2016-06-27T19:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。