論文の概要: Compelling ReLU Network Initialization and Training to Leverage Exponential Scaling with Depth
- arxiv url: http://arxiv.org/abs/2311.18022v3
- Date: Sat, 1 Jun 2024 23:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 20:11:43.087533
- Title: Compelling ReLU Network Initialization and Training to Leverage Exponential Scaling with Depth
- Title(参考訳): ReLUネットワークの初期化と深度による指数スケーリングの活用
- Authors: Max Milkert, David Hyde, Forrest Laine,
- Abstract要約: ReLUアクティベーションを持つニューラルネットワークは、断片的線形関数の合成と見なすことができる。
本稿では,ネットワークに多数のアクティベーションパターンを指数関数的に表示させる新たなトレーニング戦略を提案する。
このアプローチにより、無作為な1次元関数よりも数桁精度の高い凸関数の近似を学習することができる。
- 参考スコア(独自算出の注目度): 1.7205106391379021
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A neural network with ReLU activations may be viewed as a composition of piecewise linear functions. For such networks, the number of distinct linear regions expressed over the input domain has the potential to scale exponentially with depth, but it is not expected to do so when the initial parameters are chosen randomly. This poor scaling can necessitate the use of overly large models to approximate even simple functions. To address this issue, we introduce a novel training strategy: we first reparameterize the network weights in a manner that forces the network to display a number of activation patterns exponential in depth. Training first on our derived parameters provides an initial solution that can later be refined by directly updating the underlying model weights. This approach allows us to learn approximations of convex, one-dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts.
- Abstract(参考訳): ReLUアクティベーションを持つニューラルネットワークは、断片的線形関数の合成と見なすことができる。
このようなネットワークに対して、入力領域上で表現される異なる線形領域の数は、指数関数的に深さにスケールする可能性があるが、初期パラメータがランダムに選択された場合、それは期待できない。
この貧弱なスケーリングは、単純な関数を近似するために、過度に大きなモデルを使う必要がある。
この問題に対処するために、我々はまずネットワークの重みをパラメータ化し、ネットワークに多くの活性化パターンを指数関数的に表示させる新しいトレーニング戦略を導入する。
導出したパラメータをトレーニングすることで、基礎となるモデルの重みを直接更新することで、後から改善できる最初のソリューションを提供します。
このアプローチにより、ランダムに初期化された関数よりも数桁精度の高い凸1次元関数の近似を学習することができる。
関連論文リスト
- Scalable Bayesian Inference in the Era of Deep Learning: From Gaussian Processes to Deep Neural Networks [0.5827521884806072]
大規模なデータセットでトレーニングされた大規模なニューラルネットワークは、マシンラーニングの主要なパラダイムになっています。
この論文は、モデル不確実性を持つニューラルネットワークを装備するためのスケーラブルな手法を開発する。
論文 参考訳(メタデータ) (2024-04-29T23:38:58Z) - Asymptotics of feature learning in two-layer networks after one gradient-step [39.02152620420932]
本研究では,2層ニューラルネットワークがデータからどのように学習するかを考察し,カーネルの仕組みを改良する。
トレーニングネットワークをスパイクされたランダム特徴量(sRF)モデルでモデル化する。
高次元極限におけるsRFの一般化誤差を正確に記述する。
論文 参考訳(メタデータ) (2024-02-07T15:57:30Z) - ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - Simple initialization and parametrization of sinusoidal networks via
their kernel bandwidth [92.25666446274188]
従来の活性化機能を持つネットワークの代替として、活性化を伴う正弦波ニューラルネットワークが提案されている。
まず,このような正弦波ニューラルネットワークの簡易版を提案する。
次に、ニューラルタンジェントカーネルの観点からこれらのネットワークの挙動を分析し、そのカーネルが調整可能な帯域幅を持つ低域フィルタを近似することを実証する。
論文 参考訳(メタデータ) (2022-11-26T07:41:48Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - An Effective and Efficient Initialization Scheme for Training
Multi-layer Feedforward Neural Networks [5.161531917413708]
本稿では,有名なスタインの身元に基づく新しいネットワーク初期化手法を提案する。
提案したSteinGLM法は、ニューラルネットワークのトレーニングによく使われる他の一般的な手法よりもはるかに高速で高精度であることを示す。
論文 参考訳(メタデータ) (2020-05-16T16:17:37Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。