論文の概要: Depth-Aware Initialization for Stable and Efficient Neural Network Training
- arxiv url: http://arxiv.org/abs/2509.05018v1
- Date: Fri, 05 Sep 2025 11:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.577005
- Title: Depth-Aware Initialization for Stable and Efficient Neural Network Training
- Title(参考訳): 安定かつ効率的なニューラルネットワークトレーニングのための深さ認識初期化
- Authors: Vijay Pandey,
- Abstract要約: 本稿では,各レイヤの深度情報とネットワーク全体の深度情報を,より優れたスキームのために組み込んだ研究を行った。
そこで我々は,各層深度の情報を組み込んだ,フレキシブルな方法でネットワークのばらつきを増大させる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In past few years, various initialization schemes have been proposed. These schemes are glorot initialization, He initialization, initialization using orthogonal matrix, random walk method for initialization. Some of these methods stress on keeping unit variance of activation and gradient propagation through the network layer. Few of these methods are independent of the depth information while some methods has considered the total network depth for better initialization. In this paper, comprehensive study has been done where depth information of each layer as well as total network is incorporated for better initialization scheme. It has also been studied that for deeper networks theoretical assumption of unit variance throughout the network does not perform well. It requires the need to increase the variance of the network from first layer activation to last layer activation. We proposed a novel way to increase the variance of the network in flexible manner, which incorporates the information of each layer depth. Experiments shows that proposed method performs better than the existing initialization scheme.
- Abstract(参考訳): ここ数年、様々な初期化スキームが提案されている。
これらのスキームは、グロロット初期化、He初期化、直交行列を用いた初期化、ランダムウォーク法による初期化である。
これらの手法のいくつかは、ネットワーク層を通しての活性化と勾配伝播の単位分散を維持することに重点を置いている。
これらの手法のいくつかは深度情報とは無関係であるが、いくつかの手法ではより優れた初期化のために全ネットワーク深度を考慮している。
本稿では,各層および全ネットワークの深度情報を,より優れた初期化手法として組み込んだ総合的研究を行った。
また、より深いネットワーク理論では、ネットワーク全体の単位分散の仮定がうまく機能しないことも研究されている。
ネットワークのばらつきを第1層アクティベーションから最終層アクティベーションに高める必要がある。
そこで我々は,各層深度の情報を組み込んだ,フレキシブルな方法でネットワークのばらつきを増大させる新しい手法を提案する。
実験の結果,提案手法は既存の初期化方式よりも優れた性能を示した。
関連論文リスト
- Robust Weight Initialization for Tanh Neural Networks with Fixed Point Analysis [5.016205338484259]
ニューラルネットワークの深さが増加すると、一般化性能が向上する。
本稿では,タンハアクティベーション機能を持つニューラルネットワークの新しい重み初期化手法を提案する。
様々な分類データセットと物理インフォームドニューラルネットワークの実験により、提案手法は、異なるネットワークサイズにわたる堅牢性の観点から、Xavier法(正規化の有無にかかわらず)より優れていることを示した。
論文 参考訳(メタデータ) (2024-10-03T06:30:27Z) - Sparser, Better, Deeper, Stronger: Improving Sparse Training with Exact Orthogonal Initialization [49.06421851486415]
静的スパーストレーニングは、スパースモデルをスクラッチからトレーニングすることを目的としており、近年顕著な成果を上げている。
ランダムなアジェンダ回転に基づく新しいスパースな直交初期化スキームであるExact Orthogonal Initialization (EOI)を提案する。
本手法は,残差接続や正規化を伴わずに,1000層ネットワークとCNNネットワークを疎結合に訓練することができる。
論文 参考訳(メタデータ) (2024-06-03T19:44:47Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - Data-driven Weight Initialization with Sylvester Solvers [72.11163104763071]
本稿では,ディープニューラルネットワークのパラメータを初期化するためのデータ駆動方式を提案する。
提案手法は,特にショットや微調整の設定において有効であることを示す。
論文 参考訳(メタデータ) (2021-05-02T07:33:16Z) - Solving Sparse Linear Inverse Problems in Communication Systems: A Deep
Learning Approach With Adaptive Depth [51.40441097625201]
疎信号回復問題に対するエンドツーエンドの訓練可能なディープラーニングアーキテクチャを提案する。
提案手法は,出力するレイヤ数を学習し,各タスクのネットワーク深さを推論フェーズで動的に調整する。
論文 参考訳(メタデータ) (2020-10-29T06:32:53Z) - Deep Networks from the Principle of Rate Reduction [32.87280757001462]
この研究は、レート還元と(シフト)不変分類の原理から、現代のディープ(畳み込み)ネットワークを解釈しようとする。
学習した特徴量の減少率を最適化するための基本的反復的漸進勾配法が,多層深層ネットワーク,すなわち1層1回を自然に導くことを示す。
この「ホワイトボックス」ネットワークの全てのコンポーネントは正確な最適化、統計学、幾何学的解釈を持っている。
論文 参考訳(メタデータ) (2020-10-27T06:01:43Z) - An Effective and Efficient Initialization Scheme for Training
Multi-layer Feedforward Neural Networks [5.161531917413708]
本稿では,有名なスタインの身元に基づく新しいネットワーク初期化手法を提案する。
提案したSteinGLM法は、ニューラルネットワークのトレーニングによく使われる他の一般的な手法よりもはるかに高速で高精度であることを示す。
論文 参考訳(メタデータ) (2020-05-16T16:17:37Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。