論文の概要: Signal Preserving Weight Initialization for Odd-Sigmoid Activations
- arxiv url: http://arxiv.org/abs/2509.23085v1
- Date: Sat, 27 Sep 2025 03:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.02505
- Title: Signal Preserving Weight Initialization for Odd-Sigmoid Activations
- Title(参考訳): Odd-Sigmoid Activation の信号保存重み初期化
- Authors: Hyunwoo Lee, Hayoung Choi, Hyunju Kim,
- Abstract要約: 非線形性は飽和、分散崩壊、学習速度の感度の向上を引き起こす。
奇妙なシグモイド函数クラスを定義し、このクラス内の任意の活性化 f を与えられたとき、f に適した初期化法を提案する。
このアプローチは、正規化レイヤなしで確実にトレーニングし、強力なデータ効率を示し、標準メソッドが確実に収束しないアクティベーションの学習を可能にする。
- 参考スコア(独自算出の注目度): 8.980239243034008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation functions critically influence trainability and expressivity, and recent work has therefore explored a broad range of nonlinearities. However, activations and weight initialization are interdependent: without an appropriate initialization method, nonlinearities can cause saturation, variance collapse, and increased learning rate sensitivity. We address this by defining an odd sigmoid function class and, given any activation f in this class, proposing an initialization method tailored to f. The method selects a noise scale in closed form so that forward activations remain well dispersed up to a target layer, thereby avoiding collapse to zero or saturation. Empirically, the approach trains reliably without normalization layers, exhibits strong data efficiency, and enables learning for activations under which standard initialization methods (Xavier, He, Orthogonal) often do not converge reliably.
- Abstract(参考訳): 活性化関数は訓練性や表現性に大きな影響を与え、近年の研究では幅広い非線形性を探求している。
しかし、活性化と重み初期化は相互依存的であり、適切な初期化法がなければ、非線形性は飽和、分散崩壊、学習速度の感度の向上を引き起こす可能性がある。
奇妙なシグモイド函数クラスを定義し、このクラス内の任意の活性化 f を与えられたとき、f に適した初期化法を提案する。
この方法は、フォワードアクティベーションがターゲット層まで適切に分散されるように閉形式でノイズスケールを選択することにより、ゼロあるいは飽和状態への崩壊を回避する。
経験的に、このアプローチは正規化層なしで確実に訓練し、強いデータ効率を示し、標準初期化方法(Xavier、He、Orthogonal)が確実に収束しない場合のアクティベーションの学習を可能にする。
関連論文リスト
- Generative System Dynamics in Recurrent Neural Networks [56.958984970518564]
リカレントニューラルネットワーク(RNN)の連続時間ダイナミクスについて検討する。
線形および非線形構成の両方において安定な極限サイクルを実現するためには,スキュー対称性の重み行列が基本であることを示す。
数値シミュレーションは、非線形活性化関数が極限周期を維持するだけでなく、システム統合プロセスの数値安定性を高めることを示す。
論文 参考訳(メタデータ) (2025-04-16T10:39:43Z) - IDInit: A Universal and Stable Initialization Method for Neural Network Training [44.542599968374205]
レイヤ内のアイデンティティ移行を維持する方法は、ネットワークトレーニングにおいて優れた効率性を示している。
IDInitは、残差ネットワークの主層とサブステム層の両方にアイデンティティを保持する新しい方法である。
論文 参考訳(メタデータ) (2025-03-06T17:12:46Z) - Controlled Learning of Pointwise Nonlinearities in Neural-Network-Like Architectures [14.93489065234423]
本稿では,階層型計算アーキテクチャにおける自由形式非線形性のトレーニングのための一般的な変分フレームワークを提案する。
傾斜制約により、1-Lipschitz安定性、堅固な非膨張性、単調性/可逆性といった特性を課すことができる。
本稿では, 非線形性を適切な(一様でない)B-スプラインベースで表現することで, 数値関数最適化問題の解法を示す。
論文 参考訳(メタデータ) (2024-08-23T14:39:27Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Scalable Bayesian Meta-Learning through Generalized Implicit Gradients [64.21628447579772]
Inlicit Bayesian Meta-learning (iBaML) 法は、学習可能な事前のスコープを広げるだけでなく、関連する不確実性も定量化する。
解析誤差境界は、明示的よりも一般化された暗黙的勾配の精度と効率を示すために確立される。
論文 参考訳(メタデータ) (2023-03-31T02:10:30Z) - On the Implicit Bias of Initialization Shape: Beyond Infinitesimal
Mirror Descent [55.96478231566129]
学習モデルを決定する上で,相対スケールが重要な役割を果たすことを示す。
勾配流の誘導バイアスを導出する手法を開発した。
論文 参考訳(メタデータ) (2021-02-19T07:10:48Z) - Learning Quantized Neural Nets by Coarse Gradient Method for Non-linear
Classification [3.158346511479111]
特定の単調性を持つSTEのクラスを提案し、量子化されたアクティベーション関数を持つ2層ネットワークのトレーニングへの応用について検討する。
提案したSTEに対して,対応する粗度勾配法が大域最小値に収束することを示し,性能保証を確立する。
論文 参考訳(メタデータ) (2020-11-23T07:50:09Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。