論文の概要: Where You Place the Norm Matters: From Prejudiced to Neutral Initializations
- arxiv url: http://arxiv.org/abs/2505.11312v3
- Date: Tue, 27 May 2025 06:51:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 12:08:55.048295
- Title: Where You Place the Norm Matters: From Prejudiced to Neutral Initializations
- Title(参考訳): ノームをどこに置くか:偏見から中性初期化へ
- Authors: Emanuele Francazi, Francesco Pinto, Aurelien Lucchi, Marco Baity-Jesi,
- Abstract要約: バッチ正規化(Batch Normalization)やレイヤ正規化(Layer Normalization)といった正規化レイヤは、現代のニューラルネットワークの中心的なコンポーネントである。
本研究では,隠れ層内の正規化の存在と配置が,学習開始前のネットワーク予測の統計的特性に与える影響について検討する。
我々の研究は、正規化が早期訓練行動にどのように影響するかを原則的に理解し、より制御され、解釈可能なネットワーク設計のためのガイダンスを提供する。
- 参考スコア(独自算出の注目度): 5.070645558119592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Normalization layers, such as Batch Normalization and Layer Normalization, are central components in modern neural networks, widely adopted to improve training stability and generalization. While their practical effectiveness is well documented, a detailed theoretical understanding of how normalization affects model behavior, starting from initialization, remains an important open question. In this work, we investigate how both the presence and placement of normalization within hidden layers influence the statistical properties of network predictions before training begins. In particular, we study how these choices shape the distribution of class predictions at initialization, which can range from unbiased (Neutral) to highly concentrated (Prejudiced) toward a subset of classes. Our analysis shows that normalization placement induces systematic differences in the initial prediction behavior of neural networks, which in turn shape the dynamics of learning. By linking architectural choices to prediction statistics at initialization, our work provides a principled understanding of how normalization can influence early training behavior and offers guidance for more controlled and interpretable network design.
- Abstract(参考訳): バッチ正規化やレイヤ正規化のような正規化レイヤは、トレーニングの安定性と一般化を改善するために広く採用されている、現代のニューラルネットワークの中心的なコンポーネントである。
それらの実用性は十分に文書化されているが、正規化がモデル行動にどう影響するかに関する詳細な理論的理解は、初期化から始まっているが、依然として重要な疑問である。
本研究では,隠れ層内における正規化の存在と配置が,学習開始前のネットワーク予測の統計的特性に与える影響について検討する。
特に,これらの選択が初期化時のクラス予測の分布をどう形成するかを考察する。
解析の結果,正規化配置はニューラルネットワークの初期予測行動に系統的な差異を生じさせ,学習のダイナミクスを形作ることがわかった。
アーキテクチャの選択を初期化時の予測統計にリンクすることにより、我々の研究は、正規化が早期訓練行動にどのように影響するかを原則的に理解し、より制御され、解釈可能なネットワーク設計のためのガイダンスを提供する。
関連論文リスト
- On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - Initial Guessing Bias: How Untrained Networks Favor Some Classes [0.09103230894909536]
深層ニューラルネットワーク(DNN)の構造は、トレーニング開始前であっても、全ての予測を同じクラスに割り当てるようにモデルを条件付けることができることを示す。
この現象の存在は,データセット前処理手法を含むモデル選択の影響を受けていることを実証する。
ノード置換対称性の分解や自己回避の違反など理論的な結果を強調した。
論文 参考訳(メタデータ) (2023-06-01T15:37:32Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Normalization Techniques in Training DNNs: Methodology, Analysis and
Application [111.82265258916397]
ディープニューラルネットワーク(DNN)のトレーニングを加速し、一般化を改善するためには、正規化技術が不可欠である
本稿では,トレーニングの文脈における正規化手法の過去,現在,未来に関するレビューとコメントを行う。
論文 参考訳(メタデータ) (2020-09-27T13:06:52Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z) - Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers [82.61117235807606]
ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。
我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
論文 参考訳(メタデータ) (2020-06-11T23:55:54Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。