論文の概要: The Resurrection of the ReLU
- arxiv url: http://arxiv.org/abs/2505.22074v1
- Date: Wed, 28 May 2025 07:55:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.476757
- Title: The Resurrection of the ReLU
- Title(参考訳): ReLUの復活
- Authors: Coşku Can Horuz, Geoffrey Kasenbacher, Saya Higuchi, Sebastian Kairat, Jendrik Stoltz, Moritz Pesl, Bernhard A. Moser, Christoph Linse, Thomas Martinetz, Sebastian Otte,
- Abstract要約: 本稿では,ReLU (SUGAR) のサロゲート勾配学習を,深層アーキテクチャのための新しいプラグアンドプレイ正規化器として紹介する。
SUGARは、前方通過中に標準のReLU関数を保存するが、後方通過においてその誘導体を滑らかな置換基で置き換える。
我々は,SUGARが十分に整合した代理関数と組み合わせることで,畳み込みネットワークアーキテクチャよりも性能が大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 1.0626574691596062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling sophisticated activation functions within deep learning architectures has evolved into a distinct research direction. Functions such as GELU, SELU, and SiLU offer smooth gradients and improved convergence properties, making them popular choices in state-of-the-art models. Despite this trend, the classical ReLU remains appealing due to its simplicity, inherent sparsity, and other advantageous topological characteristics. However, ReLU units are prone to becoming irreversibly inactive - a phenomenon known as the dying ReLU problem - which limits their overall effectiveness. In this work, we introduce surrogate gradient learning for ReLU (SUGAR) as a novel, plug-and-play regularizer for deep architectures. SUGAR preserves the standard ReLU function during the forward pass but replaces its derivative in the backward pass with a smooth surrogate that avoids zeroing out gradients. We demonstrate that SUGAR, when paired with a well-chosen surrogate function, substantially enhances generalization performance over convolutional network architectures such as VGG-16 and ResNet-18, providing sparser activations while effectively resurrecting dead ReLUs. Moreover, we show that even in modern architectures like Conv2NeXt and Swin Transformer - which typically employ GELU - substituting these with SUGAR yields competitive and even slightly superior performance. These findings challenge the prevailing notion that advanced activation functions are necessary for optimal performance. Instead, they suggest that the conventional ReLU, particularly with appropriate gradient handling, can serve as a strong, versatile revived classic across a broad range of deep learning vision models.
- Abstract(参考訳): ディープラーニングアーキテクチャにおける高度なアクティベーション関数のモデリングは、異なる研究方向へと進化してきた。
GELU、SELU、SiLUといった関数はスムーズな勾配を提供し、収束性を改善し、最先端のモデルでは人気がある。
この傾向にもかかわらず、古典的なReLUは、その単純さ、固有の空間性、その他の有利な位相特性のために、魅力的なままである。
しかし、ReLUユニットは、死滅するReLU問題として知られる不可逆的不活性になる傾向にあり、その全体的な効果を制限している。
本研究では,ReLU (SUGAR) のサロゲート勾配学習を,深層アーキテクチャのための新しいプラグアンドプレイ正規化器として導入する。
SUGARは前方通過中に標準のReLU関数を保存するが、後方通過の導関数をスムーズな置換基で置き換え、勾配をゼロにするのを避ける。
本稿では,SUGARとよく似たサロゲート関数を組み合わせることで,VGG-16やResNet-18といった畳み込みネットワークアーキテクチャに対する一般化性能を大幅に向上し,スペーサーアクティベーションを実現するとともに,死んだReLUを効果的に復活させることを実証する。
さらに, GELUを採用しているConv2NeXtやSwin Transformerのような近代的アーキテクチャにおいても, SUGARに代えて, 競争力があり, 性能も若干優れていることを示す。
これらの知見は、高度なアクティベーション関数が最適な性能に必要である、という一般的な概念に挑戦する。
代わりに彼らは、従来のReLU、特に適切な勾配ハンドリングは、幅広いディープラーニングビジョンモデルにわたって、強力で汎用的な古典として機能することを示唆している。
関連論文リスト
- InvFussion: Bridging Supervised and Zero-shot Diffusion for Inverse Problems [76.39776789410088]
この研究は、教師付きアプローチの強いパフォーマンスとゼロショットメソッドの柔軟性を組み合わせたフレームワークを導入している。
新規なアーキテクチャ設計では、分解演算子を直接デノイザにシームレスに統合する。
FFHQとImageNetデータセットの実験結果は、最先端の後方サンプリング性能を示している。
論文 参考訳(メタデータ) (2025-04-02T12:40:57Z) - Hysteresis Activation Function for Efficient Inference [3.5223695602582614]
本稿では,Hysteresis Rectified Linear Unit (HLU) を提案する。
トレーニングと推論のための固定しきい値を持つ従来のアクティベーション関数とは異なり、HLUはバックプロパゲーションを洗練させる可変しきい値を使用する。
論文 参考訳(メタデータ) (2024-11-15T20:46:58Z) - DORNet: A Degradation Oriented and Regularized Network for Blind Depth Super-Resolution [48.744290794713905]
現実のシナリオでは、キャプチャーされた深度データは、センサーの制限や複雑な撮像環境のために、従来と変わらない劣化に悩まされることが多い。
本稿では,現実のシーンにおける未知の劣化に適応的に対処する新しいフレームワークであるDORNetを提案する。
提案手法は,低解像度深度データの劣化表現をモデル化した自己教師付き劣化学習戦略の開発から始まる。
効率的なRGB-D融合を容易にするために,学習した劣化先行情報に基づいて,RGBコンテンツを奥行きデータに選択的に伝播する劣化指向の特徴変換モジュールを導入する。
論文 参考訳(メタデータ) (2024-10-15T14:53:07Z) - ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models [3.7802450241986945]
LayerNormは、トレーニングの安定化とスムーズな最適化を保証するため、現代の大規模言語モデル(LLM)において重要なコンポーネントである。
本研究は、正規化自由デコーダのみのLLMにおける望ましいアクティベーション関数について検討する。
ReLUは、LayerNormフリーモデルでGELUを著しく上回り、bf 8.2%のパープレキシティ改善をもたらした。
論文 参考訳(メタデータ) (2024-10-12T20:26:01Z) - Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning [55.5715496559514]
LoRA Slow Cascade Learning (LoRASC)は、LoRAの表現性と一般化能力を高めるために設計された革新的な技術である。
提案手法は,混合低ランク適応を可能にするカスケード学習戦略により表現性を増強し,複雑なパターンをキャプチャするモデルの能力を高める。
論文 参考訳(メタデータ) (2024-07-01T17:28:59Z) - RRSR:Reciprocal Reference-based Image Super-Resolution with Progressive
Feature Alignment and Selection [66.08293086254851]
本稿では,RefSRネットワークの学習を強化するための相互学習フレームワークを提案する。
新たに提案したモジュールは,マルチスケールの特徴空間に参照入力画像をアライメントし,参照認識機能の選択を行う。
我々は,最近のRefSRモデルが相互学習パラダイムによって一貫した改善が可能であることを実証的に示す。
論文 参考訳(メタデータ) (2022-11-08T12:39:35Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - ALReLU: A different approach on Leaky ReLU activation function to
improve Neural Networks Performance [0.0]
古典的ReLUアクティベーション関数(AF)はディープニューラルネットワーク(DNN)に広く応用されている
ReLUの一般的な勾配問題は、アカデミーや産業分野での応用に課題をもたらす。
LReLUの変種であるAbsolute Leaky ReLU (ALReLU) AFは、一般的な「ダイングReLU問題」を解決する代替手法として提案されている。
論文 参考訳(メタデータ) (2020-12-11T06:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。