Fugu-MT 論文翻訳(概要): Swish-T : Enhancing Swish Activation with Tanh Bias for Improved Neural Network Performance

論文の概要: Swish-T : Enhancing Swish Activation with Tanh Bias for Improved Neural Network Performance

arxiv url: http://arxiv.org/abs/2407.01012v3
Date: Wed, 3 Jul 2024 05:36:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 12:55:43.619749
Title: Swish-T : Enhancing Swish Activation with Tanh Bias for Improved Neural Network Performance
Title（参考訳）: Swish-T : ニューラルネットワーク性能向上のためのTanh Biasを用いたSwish Activationの強化
Authors: Youngmin Seo, Jinha Kim, Unsang Park,
Abstract要約: Swish-T は元の Swish 関数に Tanh バイアスを加えることで定義される。 Tanhバイアスは、初期トレーニング段階での負の値のより広範な受け入れを可能にする。 Swish-Tファミリーの優位性は、様々なモデルやベンチマークデータセットで実証的に実証されている。
参考スコア（独自算出の注目度）: 1.5972994674905223
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose the Swish-T family, an enhancement of the existing non-monotonic activation function Swish. Swish-T is defined by adding a Tanh bias to the original Swish function. This modification creates a family of Swish-T variants, each designed to excel in different tasks, showcasing specific advantages depending on the application context. The Tanh bias allows for broader acceptance of negative values during initial training stages, offering a smoother non-monotonic curve than the original Swish. We ultimately propose the Swish-T$_{\textbf{C}}$ function, while Swish-T and Swish-T$_{\textbf{B}}$, byproducts of Swish-T$_{\textbf{C}}$, also demonstrate satisfactory performance. Furthermore, our ablation study shows that using Swish-T$_{\textbf{C}}$ as a non-parametric function can still achieve high performance. The superiority of the Swish-T family has been empirically demonstrated across various models and benchmark datasets, including MNIST, Fashion MNIST, SVHN, CIFAR-10, and CIFAR-100. The code is publicly available at https://github.com/ictseoyoungmin/Swish-T-pytorch.
Abstract（参考訳）: 既存の非単調活性化関数 Swish の強化である Swish-T family を提案する。 Swish-T は元の Swish 関数に Tanh バイアスを加えることで定義される。この修正によってSwish-Tの亜種が生成され、それぞれ異なるタスクに優れ、アプリケーションコンテキストに応じて特定の利点を示すように設計されている。タンのバイアスは、最初のトレーニング段階でより広い負の値を受け入れることができ、元のスウィッシュよりもスムーズな非単調曲線を提供する。最終的に、Swish-T$_{\textbf{C}}$関数を提案するが、Swish-TとSwish-T$_{\textbf{B}}$は、Swish-T$_{\textbf{C}}$の副産物である。さらに,非パラメトリック関数としてSwish-T$_{\textbf{C}}$を使用することで高い性能が得られることを示す。 Swish-Tファミリーの優位性は、MNIST、Fashion MNIST、SVHN、CIFAR-10、CIFAR-100など、様々なモデルやベンチマークデータセットで実証されている。コードはhttps://github.com/ictseoyoungmin/Swish-T-pytorchで公開されている。

関連論文リスト

SG-Blend: Learning an Interpolation Between Improved Swish and GELU for Robust Neural Representations [8.276787575807392]
本研究は,提案したSSwishと確立されたGELUをブレンドした新規活性化機能であるSG-Blendを紹介する。学習可能なパラメータによってこれらの成分関数を適応的にブレンドすることにより、SG-Blendは相補的な強みを活用することを目指している。
論文参考訳（メタデータ） (2025-05-29T18:48:18Z)
Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\ exttt{D}}$ual-$\mathbf{\ exttt{H}}$ead $\mathbf{\ exttt{O}}$ptimization [49.2338910653152]
VLM(Vision-Constrained Model)は、ラベル付きデータが最小限に抑えられたリッチテキスト情報を活用することで、様々なタスクで顕著な成功を収めた。知識蒸留(KD)は、この問題に対して確立された解決策を提供するが、近年のVLMからのKDアプローチでは、多段階のトレーニングや追加のチューニングがしばしば行われている。本稿では,VLMの知識を,半言語設定でコンパクトなタスク固有モデルに伝達する,シンプルで効果的なKDフレームワークであるmathbftextttDHO$を提案する。
論文参考訳（メタデータ） (2025-05-12T15:39:51Z)
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文参考訳（メタデータ） (2025-02-14T18:59:51Z)
Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis [55.561961365113554]
3D Gaussian Splatting (3DGS) は新規ビュー合成(NVS)に顕著な効果を示したしかし、3DGSモデルはスパースポーズビューで訓練すると過度に適合する傾向にあり、その一般化能力は新規ビューに制限される。オーバーフィッティング問題を緩和するために,Self-Ensembling Gaussian Splatting (SE-GS) アプローチを提案する。提案手法は,NVSの品質向上に寄与し,既存の最先端手法よりも優れる。
論文参考訳（メタデータ） (2024-10-31T18:43:48Z)
Scale Equivariant Graph Metanetworks [20.445135424921908]
本稿では,入力が関数自身である学習機能という,新たな機械学習パラダイムについて述べる。我々は、スケーリング対称性を取り入れたグラフメタネットワーク(メッセージパッシング)パラダイムを適用するフレームワークである、$textitScale Equivariant Graph MetaNetworks - ScaleGMNs$を提案する。
論文参考訳（メタデータ） (2024-06-15T16:41:04Z)
Targeted Variance Reduction: Robust Bayesian Optimization of Black-Box Simulators with Noise Parameters [1.7404865362620803]
本稿では,TVR(Targeted Variance Reduction)と呼ばれるベイズ最適化手法を提案する。 TVR は $(mathbfx,boldsymboltheta)$ 以上の新しい共同獲得関数を利用しており、これは所望の改善領域内の目的に対する分散還元を目標としている。自動車用ブレーキディスクの高剛性設計への一組の数値実験において,TVRの性能向上を実証した。
論文参考訳（メタデータ） (2024-03-06T16:03:37Z)
From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文参考訳（メタデータ） (2024-02-02T21:25:46Z)
Modified Step Size for Enhanced Stochastic Gradient Descent: Convergence and Experiments [0.0]
本稿では,$frac1sqrtttをベースとした変形ステップサイズを改良することにより,勾配降下法(SGD)アルゴリズムの性能向上に新たなアプローチを提案する。提案されたステップサイズは対数的なステップ項を統合し、最終イテレーションでより小さな値を選択する。提案手法の有効性について,FashionMNISTとARARを用いて画像分類タスクの数値実験を行った。
論文参考訳（メタデータ） (2023-09-03T19:21:59Z)
Robust Counterfactual Explanations for Neural Networks With Probabilistic Guarantees [11.841312820944774]
我々は、微分可能なモデルに対する潜在的なモデル変更に対する反ファクトの堅牢性を定量化するために、 $textitStability$ と呼ぶ尺度を提案します。私たちの主な貢献は、十分高い値のtextitStability$の反ファクトが、高い確率でポテンシャルモデルが変化した後も有効であることを示すことです。
論文参考訳（メタデータ） (2023-05-19T20:48:05Z)
The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文参考訳（メタデータ） (2022-12-23T04:48:04Z)
Provably Efficient Offline Reinforcement Learning with Trajectory-Wise Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。 PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文参考訳（メタデータ） (2022-06-13T19:11:22Z)
High-dimensional Asymptotics of Feature Learning: How One Gradient Step Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文参考訳（メタデータ） (2022-05-03T12:09:59Z)
Householder Activations for Provable Robustness against Adversarial Attacks [37.289891549908596]
l_2ノルムの下で厳密なリプシッツ制約を持つ畳み込みニューラルネットワーク(CNN)の訓練は、証明可能な対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。本稿では,学習可能な家事変換を用いた非線型GNPアクティベーションのクラスについて紹介する。 CIFAR-10 と CIFAR-100 を用いた実験により,mathrmHH$ 活性化による正規化ネットワークは,標準精度と信頼性の両面で有意な改善をもたらすことが示された。
論文参考訳（メタデータ） (2021-08-05T12:02:16Z)
Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文参考訳（メタデータ） (2020-10-22T00:32:12Z)
GO Hessian for Expectation-Based Objectives [73.06986780804269]
GOグラデーションは、最近予測に基づく目的に対して$mathbbE_q_boldsymboldsymboldsymbolgamma(boldsymboly) [f(boldsymboly)]$として提案された。 GO勾配に基づいて、$mathbbE_q_boldsymboldsymboldsymbolgamma(boldsymboly) [f(boldsymboly)]$ an unbiased low-variance Hessian estimator, named GO Hessian を示す。
論文参考訳（メタデータ） (2020-06-16T02:20:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。