論文の概要: Swish-T : Enhancing Swish Activation with Tanh Bias for Improved Neural Network Performance
- arxiv url: http://arxiv.org/abs/2407.01012v3
- Date: Wed, 3 Jul 2024 05:36:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 12:55:43.619749
- Title: Swish-T : Enhancing Swish Activation with Tanh Bias for Improved Neural Network Performance
- Title(参考訳): Swish-T : ニューラルネットワーク性能向上のためのTanh Biasを用いたSwish Activationの強化
- Authors: Youngmin Seo, Jinha Kim, Unsang Park,
- Abstract要約: Swish-T は元の Swish 関数に Tanh バイアスを加えることで定義される。
Tanhバイアスは、初期トレーニング段階での負の値のより広範な受け入れを可能にする。
Swish-Tファミリーの優位性は、様々なモデルやベンチマークデータセットで実証的に実証されている。
- 参考スコア(独自算出の注目度): 1.5972994674905223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose the Swish-T family, an enhancement of the existing non-monotonic activation function Swish. Swish-T is defined by adding a Tanh bias to the original Swish function. This modification creates a family of Swish-T variants, each designed to excel in different tasks, showcasing specific advantages depending on the application context. The Tanh bias allows for broader acceptance of negative values during initial training stages, offering a smoother non-monotonic curve than the original Swish. We ultimately propose the Swish-T$_{\textbf{C}}$ function, while Swish-T and Swish-T$_{\textbf{B}}$, byproducts of Swish-T$_{\textbf{C}}$, also demonstrate satisfactory performance. Furthermore, our ablation study shows that using Swish-T$_{\textbf{C}}$ as a non-parametric function can still achieve high performance. The superiority of the Swish-T family has been empirically demonstrated across various models and benchmark datasets, including MNIST, Fashion MNIST, SVHN, CIFAR-10, and CIFAR-100. The code is publicly available at https://github.com/ictseoyoungmin/Swish-T-pytorch.
- Abstract(参考訳): 既存の非単調活性化関数 Swish の強化である Swish-T family を提案する。
Swish-T は元の Swish 関数に Tanh バイアスを加えることで定義される。
この修正によってSwish-Tの亜種が生成され、それぞれ異なるタスクに優れ、アプリケーションコンテキストに応じて特定の利点を示すように設計されている。
タンのバイアスは、最初のトレーニング段階でより広い負の値を受け入れることができ、元のスウィッシュよりもスムーズな非単調曲線を提供する。
最終的に、Swish-T$_{\textbf{C}}$関数を提案するが、Swish-TとSwish-T$_{\textbf{B}}$は、Swish-T$_{\textbf{C}}$の副産物である。
さらに,非パラメトリック関数としてSwish-T$_{\textbf{C}}$を使用することで高い性能が得られることを示す。
Swish-Tファミリーの優位性は、MNIST、Fashion MNIST、SVHN、CIFAR-10、CIFAR-100など、様々なモデルやベンチマークデータセットで実証されている。
コードはhttps://github.com/ictseoyoungmin/Swish-T-pytorchで公開されている。
関連論文リスト
- Self-Ensembling Gaussian Splatting for Few-shot Novel View Synthesis [55.561961365113554]
3D Gaussian Splatting (3DGS) は新規ビュー合成(NVS)に顕著な効果を示した
しかし、3DGSモデルはスパースポーズのビューで訓練すると過度に適合する傾向にあり、より広いポーズのバリエーションに対して一般化能力を制限する。
オーバーフィッティング問題を緩和するために, 自己理解型ガウススプラッティング (SE-GS) アプローチを導入する。
論文 参考訳(メタデータ) (2024-10-31T18:43:48Z) - Scale Equivariant Graph Metanetworks [20.445135424921908]
本稿では,入力が関数自身である学習機能という,新たな機械学習パラダイムについて述べる。
我々は、スケーリング対称性を取り入れたグラフメタネットワーク(メッセージパッシング)パラダイムを適用するフレームワークである、$textitScale Equivariant Graph MetaNetworks - ScaleGMNs$を提案する。
論文 参考訳(メタデータ) (2024-06-15T16:41:04Z) - Targeted Variance Reduction: Robust Bayesian Optimization of Black-Box
Simulators with Noise Parameters [1.7404865362620803]
本稿では,TVR(Targeted Variance Reduction)と呼ばれるベイズ最適化手法を提案する。
TVR は $(mathbfx,boldsymboltheta)$ 以上の新しい共同獲得関数を利用しており、これは所望の改善領域内の目的に対する分散還元を目標としている。
自動車用ブレーキディスクの高剛性設計への一組の数値実験において,TVRの性能向上を実証した。
論文 参考訳(メタデータ) (2024-03-06T16:03:37Z) - Modified Step Size for Enhanced Stochastic Gradient Descent: Convergence
and Experiments [0.0]
本稿では,$frac1sqrtttをベースとした変形ステップサイズを改良することにより,勾配降下法(SGD)アルゴリズムの性能向上に新たなアプローチを提案する。
提案されたステップサイズは対数的なステップ項を統合し、最終イテレーションでより小さな値を選択する。
提案手法の有効性について,FashionMNISTとARARを用いて画像分類タスクの数値実験を行った。
論文 参考訳(メタデータ) (2023-09-03T19:21:59Z) - Robust Counterfactual Explanations for Neural Networks With Probabilistic Guarantees [11.841312820944774]
我々は、微分可能なモデルに対する潜在的なモデル変更に対する反ファクトの堅牢性を定量化するために、 $textitStability$ と呼ぶ尺度を提案します。
私たちの主な貢献は、十分高い値のtextitStability$の反ファクトが、高い確率でポテンシャルモデルが変化した後も有効であることを示すことです。
論文 参考訳(メタデータ) (2023-05-19T20:48:05Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Householder Activations for Provable Robustness against Adversarial
Attacks [37.289891549908596]
l_2ノルムの下で厳密なリプシッツ制約を持つ畳み込みニューラルネットワーク(CNN)の訓練は、証明可能な対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
本稿では,学習可能な家事変換を用いた非線型GNPアクティベーションのクラスについて紹介する。
CIFAR-10 と CIFAR-100 を用いた実験により,mathrmHH$ 活性化による正規化ネットワークは,標準精度と信頼性の両面で有意な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-08-05T12:02:16Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - GO Hessian for Expectation-Based Objectives [73.06986780804269]
GOグラデーションは、最近予測に基づく目的に対して$mathbbE_q_boldsymboldsymboldsymbolgamma(boldsymboly) [f(boldsymboly)]$として提案された。
GO勾配に基づいて、$mathbbE_q_boldsymboldsymboldsymbolgamma(boldsymboly) [f(boldsymboly)]$ an unbiased low-variance Hessian estimator, named GO Hessian を示す。
論文 参考訳(メタデータ) (2020-06-16T02:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。