論文の概要: Tangma: A Tanh-Guided Activation Function with Learnable Parameters
- arxiv url: http://arxiv.org/abs/2507.10560v1
- Date: Wed, 02 Jul 2025 21:01:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-20 22:54:22.102514
- Title: Tangma: A Tanh-Guided Activation Function with Learnable Parameters
- Title(参考訳): Tangma: 学習可能なパラメータを持つTanh-Guided Activation関数
- Authors: Shreel Golwala,
- Abstract要約: Tangmaは、双曲接体の滑らかな形状と2つの学習可能なパラメータを組み合わせた、新しいアクティベーション関数である。
タングマは、畳み込み層と線形層からなるカスタムネットワークを用いて、MNISTとCIFAR-10で評価された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation functions are key to effective backpropagation and expressiveness in deep neural networks. This work introduces Tangma, a new activation function that combines the smooth shape of the hyperbolic tangent with two learnable parameters: $\alpha$, which shifts the curve's inflection point to adjust neuron activation, and $\gamma$, which adds linearity to preserve weak gradients and improve training stability. Tangma was evaluated on MNIST and CIFAR-10 using custom networks composed of convolutional and linear layers, and compared against ReLU, Swish, and GELU. On MNIST, Tangma achieved the highest validation accuracy of 99.09% and the lowest validation loss, demonstrating faster and more stable convergence than the baselines. On CIFAR-10, Tangma reached a top validation accuracy of 78.15%, outperforming all other activation functions while maintaining a competitive training loss. Tangma also showed improved training efficiency, with lower average epoch runtimes compared to Swish and GELU. These results suggest that Tangma performs well on standard vision tasks and enables reliable, efficient training. Its learnable design gives more control over activation behavior, which may benefit larger models in tasks such as image recognition or language modeling.
- Abstract(参考訳): 活性化関数はディープニューラルネットワークにおける効果的なバックプロパゲーションと表現力の鍵となる。
この研究は、双曲タンジェントの滑らかな形状と2つの学習可能なパラメータを結合する新しい活性化関数であるTangmaを導入し、曲線の屈折点をニューロンの活性化を調整するためにシフトする$\alpha$と、弱い勾配を保ちトレーニング安定性を向上させる$\gamma$を紹介した。
タングマはMNISTとCIFAR-10で、畳み込み層と線形層からなるカスタムネットワークを用いて評価され、ReLU、Swish、GELUと比較された。
MNISTでは、Tangmaは99.09%の検証精度と最低の検証損失を達成し、ベースラインよりも高速でより安定した収束を示した。
CIFAR-10では、Tangmaは78.15%の最高精度に達し、他のすべてのアクティベーション機能を上回っ、競争力のあるトレーニング損失を維持した。
またTangmaはトレーニング効率も向上し、SwishやGELUに比べて平均エポックランタイムは低かった。
これらの結果から,Tangmaは標準的な視覚タスクに優れ,信頼性と効率のよいトレーニングが可能であることが示唆された。
学習可能な設計により、アクティベーション動作をより制御できるようになり、画像認識や言語モデリングといったタスクにおけるより大きなモデルに恩恵をもたらす可能性がある。
関連論文リスト
- Knowledge Regularized Negative Feature Tuning of Vision-Language Models for Out-of-Distribution Detection [54.433899174017185]
信頼性の高い機械学習モデルを構築するには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
我々はKR-NFT(Knowledge Regularized Negative Feature Tuning)と呼ばれる新しい手法を提案する。
NFTは、事前訓練されたテキスト特徴に分布認識変換を適用し、正および負の特徴を異なる空間に効果的に分離する。
ImageNetデータセットから数発のサンプルをトレーニングすると、KR-NFTはID分類精度とOOD検出を改善するだけでなく、FPR95を5.44%削減する。
論文 参考訳(メタデータ) (2025-07-26T07:44:04Z) - Preserving Plasticity in Continual Learning with Adaptive Linearity Injection [10.641213440191551]
ディープニューラルネットワークにおける可塑性の喪失は、漸進的に学習するモデルの能力が徐々に低下することである。
近年の研究では、深い線形ネットワークは可塑性の喪失に対して弾力性があることが示されている。
適応線形化(AdaLin)は,各ニューロンの活性化機能を動的に適応し,可塑性損失を軽減する一般的な手法である。
論文 参考訳(メタデータ) (2025-05-14T15:36:51Z) - Activation function optimization method: Learnable series linear units (LSLUs) [12.089173508371246]
LSLU (Learnable Series Linear Units) と呼ばれる直列学習可能なac-tivation関数を提案する。
この方法は、精度を向上しつつ、ディープラーニングネットワークを単純化する。
CIFAR10, CIFAR100および特定のタスクデータセット(例えばSilkworm)上でのLSLUの性能を評価する。
論文 参考訳(メタデータ) (2024-08-28T11:12:27Z) - A Non-monotonic Smooth Activation Function [4.269446061678759]
活性化関数は、ネットワークに非線形性を導入するため、ディープラーニングモデルにおいて不可欠である。
本研究では,非単調かつ滑らかな機能であるSqishと呼ばれる新しいアクティベーション関数を提案する。
分類,物体検出,セグメンテーションタスク,対向ロバストネス実験において,その優位性を示した。
論文 参考訳(メタデータ) (2023-10-16T07:09:47Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - HaLP: Hallucinating Latent Positives for Skeleton-based Self-Supervised
Learning of Actions [69.14257241250046]
ラベルなしの骨格に基づく行動認識のためのモデル学習のための新しいコントラスト学習手法を提案する。
私たちの重要な貢献は、単純なモジュールであるHalucinate Latent Positivesのコントラスト学習へのHalucinate HaLPです。
実験を通して、標準のコントラスト学習フレームワーク内でこれらの生成した正を使用すれば、一貫した改善がもたらされることを示す。
論文 参考訳(メタデータ) (2023-04-01T21:09:43Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z) - TKIL: Tangent Kernel Approach for Class Balanced Incremental Learning [4.822598110892847]
クラスインクリメンタルな学習方法は、いくつかの経験者の記憶を以前に学んだタスクから守り、そこから知識を抽出することを目的としている。
既存のメソッドは、モデルが最新のタスクに過度に適合するため、クラス間でのパフォーマンスのバランスをとるのに苦労しています。
本稿では,TKIL(Tangent Kernel for Incremental Learning)の新たな手法を提案する。
論文 参考訳(メタデータ) (2022-06-17T00:20:54Z) - Linearity Grafting: Relaxed Neuron Pruning Helps Certifiable Robustness [172.61581010141978]
証明可能な堅牢性は、安全クリティカルなシナリオでディープニューラルネットワーク(DNN)を採用する上で望ましい特性である。
線形性の適切なレベルを「グラフト」することで、神経細胞を戦略的に操作する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2022-06-15T22:42:29Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - LiSHT: Non-Parametric Linearly Scaled Hyperbolic Tangent Activation
Function for Neural Networks [14.943863837083496]
我々は,Tanhを線形にスケーリングすることで,ニューラルネットワーク(NN)のための線形スケールハイパーボリックタンジェント(LiSHT)を提案する。
マルチレイヤ・パーセプトロン(MLP)、Residual Network(ResNet)、Long-Short term memory(LSTM)を用いて、データ分類、画像分類、つぶやき分類タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2019-01-01T02:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。