論文の概要: Are wider nets better given the same number of parameters?
- arxiv url: http://arxiv.org/abs/2010.14495v2
- Date: Fri, 30 Apr 2021 23:51:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 11:31:57.063529
- Title: Are wider nets better given the same number of parameters?
- Title(参考訳): 同じパラメータの数であれば、より広いネットの方がよいのでしょうか?
- Authors: Anna Golubeva, Behnam Neyshabur, Guy Gur-Ari
- Abstract要約: 実験的な研究により、ニューラルネットワークの性能はパラメータの数が増えるにつれて向上することが示された。
観察された改善は、パラメータの多さによるものなのか、それとも、幅自体の広さによるものなのか?
パラメータ数を一定に保ちながら、モデル幅を増大させる異なる方法の比較を行う。
- 参考スコア(独自算出の注目度): 41.0446926382453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empirical studies demonstrate that the performance of neural networks
improves with increasing number of parameters. In most of these studies, the
number of parameters is increased by increasing the network width. This begs
the question: Is the observed improvement due to the larger number of
parameters, or is it due to the larger width itself? We compare different ways
of increasing model width while keeping the number of parameters constant. We
show that for models initialized with a random, static sparsity pattern in the
weight tensors, network width is the determining factor for good performance,
while the number of weights is secondary, as long as trainability is ensured.
As a step towards understanding this effect, we analyze these models in the
framework of Gaussian Process kernels. We find that the distance between the
sparse finite-width model kernel and the infinite-width kernel at
initialization is indicative of model performance.
- Abstract(参考訳): 経験的研究により、ニューラルネットワークの性能はパラメータ数の増加とともに向上することが示された。
これらの研究の多くは、ネットワーク幅を増やすことでパラメータの数が増加する。
観察された改善はパラメータの多さによるものなのか、それとも幅の大きいものによるものなのか?
パラメータ数を一定に保ちながらモデル幅を増加させる異なる方法を比較する。
重みテンソルのランダムで静的な間隔パターンを初期化したモデルでは,トレーニング性を確保する限り,重みの数が二次的であるのに対して,ネットワーク幅が優れた性能の決定因子であることを示す。
この効果を理解するためのステップとして、ガウス過程カーネルの枠組みでこれらのモデルを分析する。
初期化時のスパース有限幅モデルカーネルと無限幅モデルカーネルとの間の距離はモデル性能を示す。
関連論文リスト
- "How Big is Big Enough?" Adjusting Model Size in Continual Gaussian Processes [11.43983519639935]
多くの機械学習手法では、トレーニング前にモデルのキャパシティを制御するパラメータを設定する必要がある。
「これは、どのくらい大きいのか」という疑問に繋がる。
ここでは、データが段階的に利用可能になり、最終的なデータセットサイズがトレーニング前に分からない。
ほぼ最適性能を維持しつつ,これを自動調整する手法を提案する。
論文 参考訳(メタデータ) (2024-08-14T14:40:00Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - The Limitations of Large Width in Neural Networks: A Deep Gaussian
Process Perspective [34.67386186205545]
本稿では、ニューラルネットワークの一般化による容量と幅をディープガウス過程(ディープGP)に分離する。
驚くべきことに、非パラメトリックディープGPでさえガウス過程に収束し、表現力の増大なしに事実上より浅くなることを証明する。
GP動作を制限する前にテストセットのパフォーマンスを最大化する「スイートスポット」があることが、非パラメトリックディープGPの場合、幅 = 1 または幅 = 2 で発生する適応性を妨げている。
論文 参考訳(メタデータ) (2021-06-11T17:58:58Z) - Towards Better Accuracy-efficiency Trade-offs: Divide and Co-training [24.586453683904487]
ネットワーク数(アンサンブル)の増加は、幅を純粋に増やすよりも、精度と効率のトレードオフを達成できると主張している。
小さなネットワークは、パラメータやFLOPがほとんどあるいは全くない大きなネットワークよりも、より優れたアンサンブル性能を実現することができる。
論文 参考訳(メタデータ) (2020-11-30T10:03:34Z) - Asymptotics of Wide Convolutional Neural Networks [18.198962344790377]
スキップ接続を有する広帯域CNNおよびネットワークのスケーリング法則について検討する。
有限幅モデルと無限幅モデルのパフォーマンス差は,モデル幅に対して一定の速度で消失することがわかった。
論文 参考訳(メタデータ) (2020-08-19T21:22:19Z) - On the infinite width limit of neural networks with a standard
parameterization [52.07828272324366]
幅が無限大になるにつれて、これらの特性を全て保存する標準パラメータ化の補間の改善を提案する。
実験により,結果のカーネルはNTKパラメータ化の結果とよく似た精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-01-21T01:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。