論文の概要: Batch Normalization Decomposed
- arxiv url: http://arxiv.org/abs/2412.02843v1
- Date: Tue, 03 Dec 2024 21:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:10:03.684873
- Title: Batch Normalization Decomposed
- Title(参考訳): バッチ正規化の分解
- Authors: Ido Nachum, Marco Bondaschi, Michael Gastpar, Anatoly Khina,
- Abstract要約: バッチ正規化を有するニューラルネットワーク層は、ネットワークによって誘導される表現に影響を与える3つのコンポーネントを含む。
本稿では、バッチ正規化を伴うネットワークの他の2つの重要なコンポーネント、すなわち、最新化と非線形性について分析する。
- 参考スコア(独自算出の注目度): 21.226713936233423
- License:
- Abstract: \emph{Batch normalization} is a successful building block of neural network architectures. Yet, it is not well understood. A neural network layer with batch normalization comprises three components that affect the representation induced by the network: \emph{recentering} the mean of the representation to zero, \emph{rescaling} the variance of the representation to one, and finally applying a \emph{non-linearity}. Our work follows the work of Hadi Daneshmand, Amir Joudaki, Francis Bach [NeurIPS~'21], which studied deep \emph{linear} neural networks with only the rescaling stage between layers at initialization. In our work, we present an analysis of the other two key components of networks with batch normalization, namely, the recentering and the non-linearity. When these two components are present, we observe a curious behavior at initialization. Through the layers, the representation of the batch converges to a single cluster except for an odd data point that breaks far away from the cluster in an orthogonal direction. We shed light on this behavior from two perspectives: (1) we analyze the geometrical evolution of a simplified indicative model; (2) we prove a stability result for the aforementioned~configuration.
- Abstract(参考訳): \emph{Batch normalization}は、ニューラルネットワークアーキテクチャのビルディングブロックとして成功している。
しかし、よく理解されていない。
バッチ正規化を伴うニューラルネットワーク層は、ネットワークによって誘導される表現に影響を与える3つのコンポーネントから構成される: \emph{recentering} 表現のゼロへの平均、 \emph{rescaling} 表現の1への分散、最後に \emph{non-linearity} を適用する。
我々の研究はHadi Daneshmand氏、Amir Joudaki氏、Francis Bach氏(NeurIPS~'21]の研究に続くものだ。
本稿では、バッチ正規化を伴うネットワークの他の2つの重要なコンポーネント、すなわち、最新化と非線形性について分析する。
これら2つのコンポーネントが存在する場合、初期化時に奇妙な振る舞いが観察される。
これらの層を通して、バッチの表現は、クラスタから直交方向に遠く離れている奇妙なデータポイントを除いて、単一のクラスタに収束する。
我々はこの挙動を2つの観点から明らかにした: (1) 単純化された述語モデルの幾何学的進化を解析し、(2) 上記の~構成の安定性を証明した。
関連論文リスト
- Emergence of Globally Attracting Fixed Points in Deep Neural Networks With Nonlinear Activations [24.052411316664017]
本稿では、2つの異なる入力に対して隠された表現の類似性を計測するカーネルシーケンスの進化に関する理論的枠組みを提案する。
非線形アクティベーションに対しては、カーネルシーケンスは、アクティベーションとネットワークアーキテクチャに依存する同様の表現に対応可能な、一意の固定点にグローバルに収束する。
この研究は、ディープニューラルネットワークの暗黙のバイアスと、アーキテクチャ上の選択が層間の表現の進化にどのように影響するかについて、新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-10-26T07:10:47Z) - Differential Equation Scaling Limits of Shaped and Unshaped Neural Networks [8.716913598251386]
類似した微分方程式に基づく2種類の不整形ネットワークのキャラクタリゼーションを求める。
我々は第1次補正を階層的相関に導出する。
これらの結果は、形状と未形状のネットワークアーキテクチャ間の接続を提供する。
論文 参考訳(メタデータ) (2023-10-18T16:15:10Z) - From Complexity to Clarity: Analytical Expressions of Deep Neural Network Weights via Clifford's Geometric Algebra and Convexity [54.01594785269913]
我々は,標準正規化損失のトレーニングにおいて,深部ReLUニューラルネットワークの最適重みがトレーニングサンプルのウェッジ積によって与えられることを示した。
トレーニング問題は、トレーニングデータセットの幾何学的構造をエンコードするウェッジ製品機能よりも凸最適化に還元される。
論文 参考訳(メタデータ) (2023-09-28T15:19:30Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Global Convergence Analysis of Deep Linear Networks with A One-neuron
Layer [18.06634056613645]
2次損失下で1つのニューロンを持つ層を有するディープ線形ネットワークを最適化することを検討する。
流下における任意の出発点を持つ軌道の収束点を記述する。
我々は,大域勾配器に段階的に収束する軌道の収束率を示す。
論文 参考訳(メタデータ) (2022-01-08T04:44:59Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Neural networks behave as hash encoders: An empirical study [79.38436088982283]
ReLUライクなアクティベーションを持つニューラルネットワークの入力空間は、複数の線形領域に分割される。
このパーティションは、さまざまなディープラーニングモデルで以下のエンコーディング特性を示すことを実証します。
K$-Means、$K$-NN、およびロジスティック回帰などの単純なアルゴリズムは、トレーニングデータとテストデータの両方でかなり優れたパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2021-01-14T07:50:40Z) - Implicit Geometric Regularization for Learning Shapes [34.052738965233445]
生データから直接高忠実度暗黙的ニューラル表現を計算するための新しいパラダイムを提供する。
提案手法は,従来の手法と比較して,高い精度と忠実度を有する暗黙的ニューラル表現の状態を導出することを示す。
論文 参考訳(メタデータ) (2020-02-24T07:36:32Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。