論文の概要: Orthogonal-Pad\'e Activation Functions: Trainable Activation functions
for smooth and faster convergence in deep networks
- arxiv url: http://arxiv.org/abs/2106.09693v1
- Date: Thu, 17 Jun 2021 17:47:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 16:14:26.727989
- Title: Orthogonal-Pad\'e Activation Functions: Trainable Activation functions
for smooth and faster convergence in deep networks
- Title(参考訳): Orthogonal-Pad\'e Activation Function: ディープネットワークにおけるスムーズかつ高速収束のためのトレーニング可能なアクティベーション関数
- Authors: Koushik Biswas, Shilpak Banerjee, Ashish Kumar Pandey
- Abstract要約: 我々は,Hermite-Pade(HP)アクティベーション機能(HP-1とHP-2)と呼ばれる6つの直交パッドアクティベーションのうち,2つの最適な候補を発見した。
ReLUと比較して、HP-1とHP-2は、それぞれ5.06%、PreActResNet-34では4.63%、CIFAR100データセット上のMobileNet V2モデルでは3.02%、そして2.75%の精度でトップ1の精度が向上した。
CIFAR10データセットのTop-1精度は、PreActResNet-34ではそれぞれ2.02%と1.78%、LeNetでは2.24%、2.06%向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We have proposed orthogonal-Pad\'e activation functions, which are trainable
activation functions and show that they have faster learning capability and
improves the accuracy in standard deep learning datasets and models. Based on
our experiments, we have found two best candidates out of six orthogonal-Pad\'e
activations, which we call safe Hermite-Pade (HP) activation functions, namely
HP-1 and HP-2. When compared to ReLU, HP-1 and HP-2 has an increment in top-1
accuracy by 5.06% and 4.63% respectively in PreActResNet-34, by 3.02% and 2.75%
respectively in MobileNet V2 model on CIFAR100 dataset while on CIFAR10 dataset
top-1 accuracy increases by 2.02% and 1.78% respectively in PreActResNet-34, by
2.24% and 2.06% respectively in LeNet, by 2.15% and 2.03% respectively in
Efficientnet B0.
- Abstract(参考訳): トレーニング可能なアクティベーション関数である直交-Pad\'eアクティベーション関数を提案し,より高速な学習能力を示し,標準ディープラーニングデータセットやモデルの精度を向上させる。
実験の結果,Hermite-Pade (HP) アクティベーション機能 (HP-1 と HP-2) と呼ばれる6つの直交-Pad\'e アクティベーションのうち,2つの最適な候補が見つかった。
ReLUと比較して、HP-1とHP-2は、それぞれPreActResNet-34において5.06%、HP-2は4.63%、CIFAR100データセット上では3.02%、MobileNet V2モデルでは2.75%、CIFAR10データセットでは1.78%、PreActResNet-34では2.24%、LeNetでは2.24%、Efficientnet B0では2.03%である。
関連論文リスト
- APALU: A Trainable, Adaptive Activation Function for Deep Learning
Networks [0.0]
APALU(Adaptive piecewise approximated activation linear unit)を新たに導入する。
実験では、様々なタスクに広く使用されるアクティベーション関数よりも大幅に改善されている。
APALUは、限られたデータセットで手話認識タスクにおいて100%精度を達成する。
論文 参考訳(メタデータ) (2024-02-13T06:18:42Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - DP-KB: Data Programming with Knowledge Bases Improves Transformer Fine
Tuning for Answer Sentence Selection [96.84143731242119]
トランスフォーマーは多くの知識集約(KI)タスクで素晴らしいパフォーマンスを示します。
しかし、暗黙の知識基盤(KB)として機能する能力は依然として限られている。
我々は、KB由来の文脈でトレーニングデータを豊かにする効率的なデータプログラミング手法を実装した。
論文 参考訳(メタデータ) (2022-03-17T20:23:52Z) - Tactile Grasp Refinement using Deep Reinforcement Learning and Analytic
Grasp Stability Metrics [70.65363356763598]
解析的把握安定性指標が強化学習アルゴリズムの強力な最適化目標であることを示す。
幾何的および力量に依存しないグリップ安定性の指標を組み合わせることで、カブイドの平均成功率は95.4%となることを示す。
第2の実験では,触覚情報を持たないベースラインよりも,接触フィードバックで訓練したグリップリファインメントアルゴリズムが最大6.6%向上することを示した。
論文 参考訳(メタデータ) (2021-09-23T09:20:19Z) - ErfAct: Non-monotonic smooth trainable Activation Functions [1.5267236995686555]
本稿では,ErfAct-1とErfAct-2という2つの新しい非単調なスムーズなアクティベーション関数を提案する。
実験の結果,提案機能はReLUやSwish,Mishなど,広く使われているアクティベーションに比べてネットワーク性能が大幅に向上していることがわかった。
論文 参考訳(メタデータ) (2021-09-09T16:17:38Z) - Learning specialized activation functions with the Piecewise Linear Unit [7.820667552233989]
本稿では, 注意深く設計した定式化学習法を組み込んだ, 区分線形単位 (pwlu) と呼ばれる新しい活性化関数を提案する。
特殊なアクティベーション機能を学び、ImageNetやCOCOなどの大規模データセットでSOTA性能を達成できます。
PWLUは推論時に実装も簡単で効率も良く、現実世界のアプリケーションにも広く適用できる。
論文 参考訳(メタデータ) (2021-04-08T11:29:11Z) - TanhSoft -- a family of activation functions combining Tanh and Softplus [3.3224066223099484]
本稿では,いくつかのよく知られたアクティベーション関数より優れていることを示す,新しいアクティベーション関数群,すなわちTanhSoftを提案する。
例えば、ReLUをxtanh(0.6ex)に置き換えると、CIFAR-10上のトップ1の分類精度が0.46%向上する。
論文 参考訳(メタデータ) (2020-09-08T16:59:28Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z) - Training Binary Neural Networks with Real-to-Binary Convolutions [52.91164959767517]
完全精度のネットワークのうち、数パーセント以内にバイナリネットワークをトレーニングする方法を示します。
我々は、最先端の精度をすでに達成している強力なベースラインを構築する方法を示す。
すべての改善をまとめると、提案したモデルは、ImageNet上で5%以上のトップ1精度で、現在の最先端の技術を上回ります。
論文 参考訳(メタデータ) (2020-03-25T17:54:38Z) - Pre-defined Sparsity for Low-Complexity Convolutional Neural Networks [9.409651543514615]
この研究は、フィルタ内で定期的に繰り返されるサポートセットを持つ、事前に定義されたスパース2Dカーネルを持つ畳み込みレイヤを導入している。
周期的なスパースカーネルの効率的な保存のため、パラメータの節約はエネルギー効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-01-29T07:10:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。