論文の概要: The Neural Covariance SDE: Shaped Infinite Depth-and-Width Networks at
Initialization
- arxiv url: http://arxiv.org/abs/2206.02768v3
- Date: Wed, 14 Jun 2023 19:07:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 04:01:50.403105
- Title: The Neural Covariance SDE: Shaped Infinite Depth-and-Width Networks at
Initialization
- Title(参考訳): ニューラル共分散SDE:初期化時の無限深さ幅ネットワークの形状
- Authors: Mufan Bill Li, Mihai Nica, Daniel M. Roy
- Abstract要約: 近年の研究では、ネットワークの深さが大きくなるにつれて活性化関数が形成されることが示されている。
非自明な極限に達するのに必要な活性化関数の正確なスケーリングを特定する。
アクティベーション関数に基づいて,大規模なネットワークの標準を爆発・消滅するためのif-and-only-if条件を回復する。
- 参考スコア(独自算出の注目度): 13.872374586700767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The logit outputs of a feedforward neural network at initialization are
conditionally Gaussian, given a random covariance matrix defined by the
penultimate layer. In this work, we study the distribution of this random
matrix. Recent work has shown that shaping the activation function as network
depth grows large is necessary for this covariance matrix to be non-degenerate.
However, the current infinite-width-style understanding of this shaping method
is unsatisfactory for large depth: infinite-width analyses ignore the
microscopic fluctuations from layer to layer, but these fluctuations accumulate
over many layers.
To overcome this shortcoming, we study the random covariance matrix in the
shaped infinite-depth-and-width limit. We identify the precise scaling of the
activation function necessary to arrive at a non-trivial limit, and show that
the random covariance matrix is governed by a stochastic differential equation
(SDE) that we call the Neural Covariance SDE. Using simulations, we show that
the SDE closely matches the distribution of the random covariance matrix of
finite networks. Additionally, we recover an if-and-only-if condition for
exploding and vanishing norms of large shaped networks based on the activation
function.
- Abstract(参考訳): 初期化時のフィードフォワードニューラルネットワークのロジット出力は、垂直層で定義されたランダムな共分散行列を条件付きガウス行列とする。
本研究では,このランダム行列の分布について検討する。
近年の研究では、この共分散行列が非退化するためには、ネットワーク深さが大きくなるにつれて活性化関数を形成する必要があることが示されている。
しかし、この形状法に対する現在の無限幅スタイルの理解は大深度では不十分であり、無限幅解析は層間における微視的変動を無視するが、これらのゆらぎは多くの層に蓄積する。
この欠点を克服するために、形状の無限深さと幅の極限におけるランダム共分散行列を考察する。
非自明な極限に達するのに必要な活性化関数の正確なスケーリングを特定し、確率微分方程式(SDE)によってランダムな共分散行列が支配されることを示す。
シミュレーションを用いて、sde は有限ネットワークのランダム共分散行列の分布と密接に一致することを示す。
さらに,活性化関数に基づき,大形ネットワークの爆発や消滅のノルムに対するif-and-only-if条件を回復する。
関連論文リスト
- Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Differentially Private Non-convex Learning for Multi-layer Neural
Networks [35.24835396398768]
本稿では,単一出力ノードを持つ(多層)完全連結ニューラルネットワークに対する差分的タンジェント最適化の問題に焦点をあてる。
ニューラルカーネル理論の最近の進歩を利用して、サンプルサイズとネットワーク幅の両方が十分に大きい場合に、最初の過剰人口リスクを提供する。
論文 参考訳(メタデータ) (2023-10-12T15:48:14Z) - The Shaped Transformer: Attention Models in the Infinite Depth-and-Width
Limit [38.89510345229949]
本研究では、無限深度と幅の比例極限におけるスキップ接続を持つ修正Softmaxベースのアテンションモデルの共分散行列について検討する。
適切に定義された限界を達成するため、Transformerのアテンション機構は、Softmax出力をアイデンティティに集中させることで変更される。
シミュレーションにより、深さと幅の比で指数付けされた微分方程式(SDE)が、対応する有限サイズモデルの驚くほど良い記述を提供することを示した。
論文 参考訳(メタデータ) (2023-06-30T16:10:36Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - Decomposed Diffusion Sampler for Accelerating Large-Scale Inverse
Problems [64.29491112653905]
本稿では, 拡散サンプリング法とクリロフ部分空間法を相乗的に組み合わせた, 新規で効率的な拡散サンプリング手法を提案する。
具体的には、ツイーディの公式による分母化標本における接空間がクリロフ部分空間を成すならば、その分母化データによるCGは、接空間におけるデータの整合性更新を確実に維持する。
提案手法は,従来の最先端手法よりも80倍以上高速な推論時間を実現する。
論文 参考訳(メタデータ) (2023-03-10T07:42:49Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Deep neural networks with dependent weights: Gaussian Process mixture
limit, heavy tails, sparsity and compressibility [18.531464406721412]
本稿では,重みに依存するディープフィードフォワードニューラルネットワークの無限幅限界について検討する。
ネットワークの各隠れノードは、そのノードの出力重みの分散を制御する非負のランダム変数が割り当てられる。
論文 参考訳(メタデータ) (2022-05-17T09:14:32Z) - Global convergence of ResNets: From finite to infinite width using
linear parameterization [0.0]
残差ブロックが非線形でありながら線形パラメトリゼーションを有する残差ネットワーク(Residual Networks, ResNets)について検討する。
この極限において、局所的なポリアック・ロジャシエヴィチの不等式を証明し、遅延状態を取得する。
私たちの分析は実用的で定量化されたレシピにつながります。
論文 参考訳(メタデータ) (2021-12-10T13:38:08Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。