論文の概要: Robust Weight Initialization for Tanh Neural Networks with Fixed Point Analysis
- arxiv url: http://arxiv.org/abs/2410.02242v2
- Date: Sun, 02 Mar 2025 11:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:11:35.066010
- Title: Robust Weight Initialization for Tanh Neural Networks with Fixed Point Analysis
- Title(参考訳): 固定点解析によるタンニューラルネットのロバストウェイト初期化
- Authors: Hyunwoo Lee, Hayoung Choi, Hyunju Kim,
- Abstract要約: ニューラルネットワークの深さが増加すると、一般化性能が向上する。
本稿では,タンハアクティベーション機能を持つニューラルネットワークの新しい重み初期化手法を提案する。
様々な分類データセットと物理インフォームドニューラルネットワークの実験により、提案手法は、異なるネットワークサイズにわたる堅牢性の観点から、Xavier法(正規化の有無にかかわらず)より優れていることを示した。
- 参考スコア(独自算出の注目度): 5.016205338484259
- License:
- Abstract: As a neural network's depth increases, it can improve generalization performance. However, training deep networks is challenging due to gradient and signal propagation issues. To address these challenges, extensive theoretical research and various methods have been introduced. Despite these advances, effective weight initialization methods for tanh neural networks remain insufficiently investigated. This paper presents a novel weight initialization method for neural networks with tanh activation function. Based on an analysis of the fixed points of the function $\tanh(ax)$, the proposed method aims to determine values of $a$ that mitigate activation saturation. A series of experiments on various classification datasets and physics-informed neural networks demonstrates that the proposed method outperforms Xavier initialization methods~(with or without normalization) in terms of robustness across different network sizes, data efficiency, and convergence speed. Code is available at https://github.com/1HyunwooLee/Tanh-Init
- Abstract(参考訳): ニューラルネットワークの深さが増加すると、一般化性能が向上する。
しかし、勾配や信号伝搬の問題により、ディープネットワークの訓練は困難である。
これらの課題に対処するため、広範な理論研究と様々な手法が導入された。
これらの進歩にもかかわらず、タンニューラルネットの効果的な重量初期化法は未だ十分に研究されていない。
本稿では,タンハアクティベーション機能を持つニューラルネットワークの新しい重み初期化手法を提案する。
関数 $\tanh(ax)$ の固定点の解析に基づいて,活性化飽和を緩和する $a$ の値を決定することを目的とする。
様々な分類データセットと物理インフォームドニューラルネットワークに関する一連の実験により、提案手法は、異なるネットワークサイズ、データ効率、収束速度において、(正規化の有無にかかわらず)Xavier初期化法より優れていることを示した。
コードはhttps://github.com/1HyunwooLee/Tanh-Initで入手できる。
関連論文リスト
- Are Two Hidden Layers Still Enough for the Physics-Informed Neural Networks? [0.0]
本稿では,ニューラルネットワークを単一の隠蔽層で初期化し,訓練するための様々な手法と手法の開発について論じる。
提案手法は、分離可能な物理インフォームドニューラルネットワークアプローチを用いて、2次元問題に拡張されている。
論文 参考訳(メタデータ) (2024-12-26T14:30:54Z) - Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - Improved weight initialization for deep and narrow feedforward neural network [3.0784574277021397]
ReLUニューロンが不活性になり出力がゼロになる"Bluving Dieing ReLU"というテキスト引用の問題は、ReLUアクティベーション機能を備えたディープニューラルネットワークのトレーニングにおいて大きな課題となる。
本稿では,この問題に対処するための新しい重み初期化手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T05:28:12Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Simple initialization and parametrization of sinusoidal networks via
their kernel bandwidth [92.25666446274188]
従来の活性化機能を持つネットワークの代替として、活性化を伴う正弦波ニューラルネットワークが提案されている。
まず,このような正弦波ニューラルネットワークの簡易版を提案する。
次に、ニューラルタンジェントカーネルの観点からこれらのネットワークの挙動を分析し、そのカーネルが調整可能な帯域幅を持つ低域フィルタを近似することを実証する。
論文 参考訳(メタデータ) (2022-11-26T07:41:48Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。