論文の概要: SG-Blend: Learning an Interpolation Between Improved Swish and GELU for Robust Neural Representations
- arxiv url: http://arxiv.org/abs/2505.23942v1
- Date: Thu, 29 May 2025 18:48:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.629378
- Title: SG-Blend: Learning an Interpolation Between Improved Swish and GELU for Robust Neural Representations
- Title(参考訳): SG-Blend:頑健な神経表現のための改良豚とGELUの補間学習
- Authors: Gaurav Sarkar, Jay Gala, Subarna Tripathi,
- Abstract要約: 本研究は,提案したSSwishと確立されたGELUをブレンドした新規活性化機能であるSG-Blendを紹介する。
学習可能なパラメータによってこれらの成分関数を適応的にブレンドすることにより、SG-Blendは相補的な強みを活用することを目指している。
- 参考スコア(独自算出の注目度): 8.276787575807392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The design of activation functions remains a pivotal component in optimizing deep neural networks. While prevailing choices like Swish and GELU demonstrate considerable efficacy, they often exhibit domain-specific optima. This work introduces SG-Blend, a novel activation function that blends our proposed SSwish, a first-order symmetric variant of Swish and the established GELU through dynamic interpolation. By adaptively blending these constituent functions via learnable parameters, SG-Blend aims to harness their complementary strengths: SSwish's controlled non-monotonicity and symmetry, and GELU's smooth, probabilistic profile, to achieve a more universally robust balance between model expressivity and gradient stability. We conduct comprehensive empirical evaluations across diverse modalities and architectures, showing performance improvements across all considered natural language and computer vision tasks and models. These results, achieved with negligible computational overhead, underscore SG-Blend's potential as a versatile, drop-in replacement that consistently outperforms strong contemporary baselines. The code is available at https://anonymous.4open.science/r/SGBlend-6CBC.
- Abstract(参考訳): 活性化関数の設計は、ディープニューラルネットワークの最適化において重要な要素である。
Swish や GELU のような一般的な選択は極めて有効であるが、ドメイン固有の最適化を示すことが多い。
本研究では,Swishの1次対称変種であるSSwishと,動的補間により確立されたGELUをブレンドする新しい活性化関数であるSG-Blendを紹介する。
SSwishの制御された非単調性と対称性、GELUの滑らかで確率的なプロファイル、モデル表現性と勾配安定性の間のより普遍的に堅牢なバランスを達成することを目的としている。
様々なモダリティやアーキテクチャにまたがる総合的な経験的評価を行い、検討された自然言語やコンピュータビジョンのタスクやモデルにまたがるパフォーマンスの向上を示す。
これらの結果は、無視可能な計算オーバーヘッドで達成され、SG-Blendのポテンシャルを、強力な現代ベースラインを一貫して上回る汎用的でドロップインの代替として評価している。
コードはhttps://anonymous.4open.science/r/SGBlend-6CBCで公開されている。
関連論文リスト
- MISCGrasp: Leveraging Multiple Integrated Scales and Contrastive Learning for Enhanced Volumetric Grasping [15.127239823566194]
MISCGraspは,マルチスケール特徴抽出とコントラスト特徴強調を統合した容積把握方式である。
本稿では,Insight Transformer による高次特徴と低次特徴の問合せに基づく対話を提案し,Empower Transformer は高次特徴に選択的に対応している。
シミュレーションおよび実世界の環境における実験により、MISCGraspはテーブルトップデクラッタリングタスクにおいて、ベースラインおよび変種メソッドよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2025-07-03T14:36:45Z) - HiLAB: A Hybrid Inverse-Design Framework [0.0]
HiLABはナノフォトニック構造の逆設計のための新しいパラダイムである。
シミュレーションコストを削減した多様なフリーフォーム構成を生成することで、多機能デバイス設計に対処する。
論文 参考訳(メタデータ) (2025-05-23T05:34:56Z) - RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement [59.364418120895]
水中画像強調(UIE)は、海洋視覚応用のための重要な前処理ステップである。
実効UIE(RD-UIE)のための新しい関係駆動型マンバフレームワークを開発した。
水中強化ベンチマークの実験では、RD-UIEは最先端のアプローチであるWMambaよりも優れていた。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - Instruction-Guided Autoregressive Neural Network Parameter Generation [49.800239140036496]
本稿では,多種多様なタスクやアーキテクチャにまたがるパラメータ合成を統一する自動回帰フレームワークIGPGを提案する。
ニューラルネットワーク重みのトークンを自動回帰的に生成することにより、IGPGは層間コヒーレンスを確保し、モデルとデータセット間の効率的な適応を可能にする。
複数のデータセットの実験により、IGPGは様々な事前訓練されたモデルを単一の柔軟な生成フレームワークに統合することを示した。
論文 参考訳(メタデータ) (2025-04-02T05:50:19Z) - Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - A Functional Extension of Semi-Structured Networks [2.482050942288848]
半構造化ネットワーク(SSN)は、深いニューラルネットワークを持つ付加モデルに精通した構造をマージする。
大規模データセットにインスパイアされた本研究では,SSNを機能データに拡張する方法について検討する。
本稿では,古典的機能回帰手法の優位性を保ちつつ,スケーラビリティを向上する機能的SSN法を提案する。
論文 参考訳(メタデータ) (2024-10-07T18:50:18Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
従来の手法では、固定パラメータ空間に依存する静的適応を広く採用し、逐次到着するデータから学習する。
本稿では、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整する2つの選択型SSMプロジェクタを提案する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - Task adaption by biologically inspired stochastic comodulation [8.59194778459436]
我々は、利得変調による微調整畳み込みネットワークが、決定論的利得変調を改善することを示す。
この結果から,コモディレーション表現はマルチタスク学習における学習効率と性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-11-25T15:21:03Z) - Accelerating Toeplitz Neural Network with Constant-time Inference
Complexity [21.88774274472737]
Toeplitz Neural Networks (TNN) は、様々なシーケンスモデリングタスクにおいて優れた性能を示した。
それらは、ログ線形の時空複雑さの恩恵を受けながら、Transformerベースのモデルよりも優れていた。
本稿では、TNNと状態空間モデル(SSM)の長所を、推論中にTNNをSSMに変換することで組み合わせることを目的とする。
論文 参考訳(メタデータ) (2023-11-15T07:50:57Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。