論文の概要: SG-Blend: Learning an Interpolation Between Improved Swish and GELU for Robust Neural Representations
- arxiv url: http://arxiv.org/abs/2505.23942v1
- Date: Thu, 29 May 2025 18:48:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.629378
- Title: SG-Blend: Learning an Interpolation Between Improved Swish and GELU for Robust Neural Representations
- Title(参考訳): SG-Blend:頑健な神経表現のための改良豚とGELUの補間学習
- Authors: Gaurav Sarkar, Jay Gala, Subarna Tripathi,
- Abstract要約: 本研究は,提案したSSwishと確立されたGELUをブレンドした新規活性化機能であるSG-Blendを紹介する。
学習可能なパラメータによってこれらの成分関数を適応的にブレンドすることにより、SG-Blendは相補的な強みを活用することを目指している。
- 参考スコア(独自算出の注目度): 8.276787575807392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The design of activation functions remains a pivotal component in optimizing deep neural networks. While prevailing choices like Swish and GELU demonstrate considerable efficacy, they often exhibit domain-specific optima. This work introduces SG-Blend, a novel activation function that blends our proposed SSwish, a first-order symmetric variant of Swish and the established GELU through dynamic interpolation. By adaptively blending these constituent functions via learnable parameters, SG-Blend aims to harness their complementary strengths: SSwish's controlled non-monotonicity and symmetry, and GELU's smooth, probabilistic profile, to achieve a more universally robust balance between model expressivity and gradient stability. We conduct comprehensive empirical evaluations across diverse modalities and architectures, showing performance improvements across all considered natural language and computer vision tasks and models. These results, achieved with negligible computational overhead, underscore SG-Blend's potential as a versatile, drop-in replacement that consistently outperforms strong contemporary baselines. The code is available at https://anonymous.4open.science/r/SGBlend-6CBC.
- Abstract(参考訳): 活性化関数の設計は、ディープニューラルネットワークの最適化において重要な要素である。
Swish や GELU のような一般的な選択は極めて有効であるが、ドメイン固有の最適化を示すことが多い。
本研究では,Swishの1次対称変種であるSSwishと,動的補間により確立されたGELUをブレンドする新しい活性化関数であるSG-Blendを紹介する。
SSwishの制御された非単調性と対称性、GELUの滑らかで確率的なプロファイル、モデル表現性と勾配安定性の間のより普遍的に堅牢なバランスを達成することを目的としている。
様々なモダリティやアーキテクチャにまたがる総合的な経験的評価を行い、検討された自然言語やコンピュータビジョンのタスクやモデルにまたがるパフォーマンスの向上を示す。
これらの結果は、無視可能な計算オーバーヘッドで達成され、SG-Blendのポテンシャルを、強力な現代ベースラインを一貫して上回る汎用的でドロップインの代替として評価している。
コードはhttps://anonymous.4open.science/r/SGBlend-6CBCで公開されている。
関連論文リスト
- HiLAB: A Hybrid Inverse-Design Framework [0.0]
HiLABはナノフォトニック構造の逆設計のための新しいパラダイムである。
シミュレーションコストを削減した多様なフリーフォーム構成を生成することで、多機能デバイス設計に対処する。
論文 参考訳(メタデータ) (2025-05-23T05:34:56Z) - A Functional Extension of Semi-Structured Networks [2.482050942288848]
半構造化ネットワーク(SSN)は、深いニューラルネットワークを持つ付加モデルに精通した構造をマージする。
大規模データセットにインスパイアされた本研究では,SSNを機能データに拡張する方法について検討する。
本稿では,古典的機能回帰手法の優位性を保ちつつ,スケーラビリティを向上する機能的SSN法を提案する。
論文 参考訳(メタデータ) (2024-10-07T18:50:18Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
従来の手法では、固定パラメータ空間に依存する静的適応を広く採用し、逐次到着するデータから学習する。
本稿では、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整する2つの選択型SSMプロジェクタを提案する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - Task adaption by biologically inspired stochastic comodulation [8.59194778459436]
我々は、利得変調による微調整畳み込みネットワークが、決定論的利得変調を改善することを示す。
この結果から,コモディレーション表現はマルチタスク学習における学習効率と性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-11-25T15:21:03Z) - Accelerating Toeplitz Neural Network with Constant-time Inference
Complexity [21.88774274472737]
Toeplitz Neural Networks (TNN) は、様々なシーケンスモデリングタスクにおいて優れた性能を示した。
それらは、ログ線形の時空複雑さの恩恵を受けながら、Transformerベースのモデルよりも優れていた。
本稿では、TNNと状態空間モデル(SSM)の長所を、推論中にTNNをSSMに変換することで組み合わせることを目的とする。
論文 参考訳(メタデータ) (2023-11-15T07:50:57Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。