論文の概要: Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales
- arxiv url: http://arxiv.org/abs/2305.18411v2
- Date: Wed, 6 Dec 2023 01:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 19:03:33.035091
- Title: Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales
- Title(参考訳): 機能学習ネットワークは、現実的なスケールで幅に一貫性がある
- Authors: Nikhil Vyas, Alexander Atanasov, Blake Bordelon, Depen Morwani,
Sabarish Sainathan, Cengiz Pehlevan
- Abstract要約: 様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
- 参考スコア(独自算出の注目度): 72.27228085606147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the effect of width on the dynamics of feature-learning neural
networks across a variety of architectures and datasets. Early in training,
wide neural networks trained on online data have not only identical loss curves
but also agree in their point-wise test predictions throughout training. For
simple tasks such as CIFAR-5m this holds throughout training for networks of
realistic widths. We also show that structural properties of the models,
including internal representations, preactivation distributions, edge of
stability phenomena, and large learning rate effects are consistent across
large widths. This motivates the hypothesis that phenomena seen in realistic
models can be captured by infinite-width, feature-learning limits. For harder
tasks (such as ImageNet and language modeling), and later training times,
finite-width deviations grow systematically. Two distinct effects cause these
deviations across widths. First, the network output has
initialization-dependent variance scaling inversely with width, which can be
removed by ensembling networks. We observe, however, that ensembles of narrower
networks perform worse than a single wide network. We call this the bias of
narrower width. We conclude with a spectral perspective on the origin of this
finite-width bias.
- Abstract(参考訳): 様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期段階では、オンラインデータでトレーニングされた広いニューラルネットワークは、同じ損失曲線を持つだけでなく、トレーニングを通じてポイントワイズテスト予測にも同意している。
CIFAR-5mのような単純なタスクでは、これは現実的な幅のネットワークのトレーニングを通して行われる。
また,内部表現,前活性化分布,安定性現象のエッジ,大きな学習速度効果などモデルの構造的性質が広い幅にわたって一致していることが示されている。
これは、現実のモデルに見られる現象が無限幅、特徴学習の限界によって捉えられるという仮説を動機付ける。
難しいタスク(イメージネットや言語モデリングなど)や後のトレーニング時間では、有限幅偏差は体系的に増加する。
2つの異なる効果は、これらの幅の偏差を引き起こす。
まず、ネットワーク出力は、幅に逆らって初期化依存分散スケーリングを持ち、ネットワークをセンシングすることで除去できる。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
これを幅の狭いバイアスと呼ぶ。
この有限幅バイアスの起源に関するスペクトル的な視点で結論付ける。
関連論文リスト
- On the Diminishing Returns of Width for Continual Learning [2.9301925522760524]
フィードフォワードネットワーク(FFN)において、幅が直接記憶に関連があることを証明するために連続学習理論を解析する。
具体的には, ネットワーク幅の増大と, ネットワーク幅の増大が収率の低下を実証する。
論文 参考訳(メタデータ) (2024-03-11T03:19:45Z) - Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - Dynamics of Finite Width Kernel and Prediction Fluctuations in Mean
Field Neural Networks [47.73646927060476]
広義だが有限な特徴学習ニューラルネットワークにおける有限幅効果のダイナミクスを解析する。
我々の結果は、特徴学習の強みにおいて非摂動的である。
論文 参考訳(メタデータ) (2023-04-06T23:11:49Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - Globally Gated Deep Linear Networks [3.04585143845864]
我々はGGDLN(Globally Gated Deep Linear Networks)を導入する。
有限幅熱力学極限におけるこれらのネットワークの一般化特性の正確な方程式を導出する。
我々の研究は、有限幅の非線形ネットワークの族における学習に関する最初の正確な理論解である。
論文 参考訳(メタデータ) (2022-10-31T16:21:56Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Asymptotics of Wide Convolutional Neural Networks [18.198962344790377]
スキップ接続を有する広帯域CNNおよびネットワークのスケーリング法則について検討する。
有限幅モデルと無限幅モデルのパフォーマンス差は,モデル幅に対して一定の速度で消失することがわかった。
論文 参考訳(メタデータ) (2020-08-19T21:22:19Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。