論文の概要: When the Left Foot Leads to the Right Path: Bridging Initial Prejudice and Trainability
- arxiv url: http://arxiv.org/abs/2505.12096v2
- Date: Mon, 26 May 2025 07:33:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:55.046026
- Title: When the Left Foot Leads to the Right Path: Bridging Initial Prejudice and Trainability
- Title(参考訳): 左足が右足に近づいた時:初期偏見と訓練性
- Authors: Alberto Bassi, Carlo Albert, Aurelien Lucchi, Marco Baity-Jesi, Emanuele Francazi,
- Abstract要約: 平均場解析(MF)は、ランダムネットワークにおけるパラメータ分布が勾配が消滅するか爆発するかを決定することを示した。
訓練されていないDNNでは、入力空間の広い領域が1つのクラスに割り当てられる。
本研究では、IGB理論と過去のMF理論の対応性を確立する理論的証明を導出する。
- 参考スコア(独自算出の注目度): 0.07767214588770123
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding the statistical properties of deep neural networks (DNNs) at initialization is crucial for elucidating both their trainability and the intrinsic architectural biases they encode prior to data exposure. Mean-field (MF) analyses have demonstrated that the parameter distribution in randomly initialized networks dictates whether gradients vanish or explode. Concurrently, untrained DNNs were found to exhibit an initial-guessing bias (IGB), in which large regions of the input space are assigned to a single class. In this work, we derive a theoretical proof establishing the correspondence between IGB and previous MF theories, thereby connecting a network prejudice toward specific classes with the conditions for fast and accurate learning. This connection yields the counter-intuitive conclusion: the initialization that optimizes trainability is necessarily biased, rather than neutral. Furthermore, we extend the MF/IGB framework to multi-node activation functions, offering practical guidelines for designing initialization schemes that ensure stable optimization in architectures employing max- and average-pooling layers.
- Abstract(参考訳): 深層ニューラルネットワーク(DNN)の初期化時の統計的特性を理解することは、トレーニング容易性と、データ露出前に符号化される固有のアーキテクチャバイアスの両方を解明するために重要である。
平均場解析(MF)は、ランダムに初期化されたネットワークにおけるパラメータ分布が勾配が消滅するか爆発するかを決定することを示した。
同時に、訓練されていないDNNは、入力空間の広い領域を1つのクラスに割り当てる初期ゲスティングバイアス(IGB)を示すことがわかった。
本研究では,IGB理論と過去のMF理論の対応性を確立する理論的証明を導出し,ネットワーク偏見を特定のクラスに接続し,高速かつ正確な学習条件を導出する。
この接続は直感に反する結論を与える: トレーニング容易性を最適化する初期化は、中立性ではなく必然的にバイアスを受ける。
さらに、MF/IGBフレームワークをマルチノードアクティベーション関数に拡張し、最大および平均プール層を用いたアーキテクチャにおいて安定した最適化を保証する初期化スキームを設計するための実用的なガイドラインを提供する。
関連論文リスト
- Initial Guessing Bias: How Untrained Networks Favor Some Classes [0.09103230894909536]
深層ニューラルネットワーク(DNN)の構造は、トレーニング開始前であっても、全ての予測を同じクラスに割り当てるようにモデルを条件付けることができることを示す。
この現象の存在は,データセット前処理手法を含むモデル選択の影響を受けていることを実証する。
ノード置換対称性の分解や自己回避の違反など理論的な結果を強調した。
論文 参考訳(メタデータ) (2023-06-01T15:37:32Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。