論文の概要: Phase transitions in the mini-batch size for sparse and dense neural
networks
- arxiv url: http://arxiv.org/abs/2305.06435v2
- Date: Fri, 12 May 2023 06:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 15:14:23.769645
- Title: Phase transitions in the mini-batch size for sparse and dense neural
networks
- Title(参考訳): 疎密ニューラルネットワークにおけるミニバッチサイズの相転移
- Authors: Raffaele Marino and Federico Ricci-Tersenghi
- Abstract要約: 今日では、ニューラルネットワークのトレーニングにミニバッチを使用するのが一般的である。
広く使われているにも拘わらず、最適なミニバッチサイズがどれほど大きいか定量的に説明できる理論は欠落している。
この研究は、二層ニューラルネットワークのトレーニングにおけるミニバッチサイズの役割を理解するための体系的な試みである。
- 参考スコア(独自算出の注目度): 2.436681150766912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of mini-batches of data in training artificial neural networks is
nowadays very common. Despite its broad usage, theories explaining
quantitatively how large or small the optimal mini-batch size should be are
missing. This work presents a systematic attempt at understanding the role of
the mini-batch size in training two-layer neural networks. Working in the
teacher-student scenario, with a sparse teacher, and focusing on tasks of
different complexity, we quantify the effects of changing the mini-batch size
$m$. We find that often the generalization performances of the student strongly
depend on $m$ and may undergo sharp phase transitions at a critical value
$m_c$, such that for $m<m_c$ the training process fails, while for $m>m_c$ the
student learns perfectly or generalizes very well the teacher. Phase
transitions are induced by collective phenomena firstly discovered in
statistical mechanics and later observed in many fields of science. Finding a
phase transition varying the mini-batch size raises several important questions
on the role of a hyperparameter which have been somehow overlooked until now.
- Abstract(参考訳): ニューラルネットワークのトレーニングにおけるデータのミニバッチの使用は、現在非常に一般的である。
広く使われているにもかかわらず、最適なミニバッチサイズがどの程度大きいか小さいかを定量的に説明する理論は欠落している。
本研究は,二層ニューラルネットワークの学習におけるミニバッチサイズの役割を体系的に理解する試みである。
教師-学生のシナリオで、スパース教師と働き、異なる複雑さのタスクに焦点を当て、ミニバッチサイズを$m$で変更する効果を定量化する。
学生の一般化性能は、しばしば$m$に強く依存しており、臨界値$m_c$に対して$m<m_c$が失敗し、$m>m_c$が完全に学習するか、非常によく一般化されるような急激な位相遷移を行う可能性がある。
相転移は、最初に統計力学で発見され、後に科学の多くの分野で観測された集団現象によって引き起こされる。
ミニバッチサイズを変化させる相転移を見つけることは、これまで見過ごされてきたハイパーパラメータの役割に関するいくつかの重要な疑問を引き起こす。
関連論文リスト
- A Large-Scale Exploration of $μ$-Transfer [0.0]
$mu$-Transferは、モデルのスケーリングルールを出力する。
導入者と学習率です
$mu$-Transferはまだ広く採用されていない。
最大10Bパラメータのモデルと最大190Bトークンのトレーニング予算について検討し、重要ケースの大多数を意図した$mu$-Transferが機能することを確認した。
論文 参考訳(メタデータ) (2024-04-08T17:59:44Z) - SGD Finds then Tunes Features in Two-Layer Neural Networks with
near-Optimal Sample Complexity: A Case Study in the XOR problem [1.3597551064547502]
本研究では,2層ニューラルネットワーク上でのミニバッチ降下勾配(SGD)の最適化過程について考察する。
二次 XOR' 関数 $y = -x_ix_j$ でラベル付けされた $d$-dimensional Boolean hypercube から得られるデータから、人口誤差 $o(1)$ と $d :textpolylog(d)$ のサンプルをトレーニングすることが可能であることを証明した。
論文 参考訳(メタデータ) (2023-09-26T17:57:44Z) - Parallel Learning by Multitasking Neural Networks [1.6799377888527685]
現代の人工知能の課題は、複数のパターンを同時に学習することだ。
マルチタスク・ヘビアン・ネットワークは,このような複雑なタスクを自然に行うことができることを示す。
論文 参考訳(メタデータ) (2023-08-08T07:43:31Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。
畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文 参考訳(メタデータ) (2023-06-14T01:24:42Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Information Bottleneck-Based Hebbian Learning Rule Naturally Ties
Working Memory and Synaptic Updates [0.0]
私たちは、バックプロパゲーションとその関連する問題を完全に回避する、別のアプローチを取っています。
深層学習における最近の研究は、情報ボトルネック(IB)を介してネットワークの各層を個別に訓練することを提案した。
この変調信号は、貯水池のような動作記憶を持つ補助回路で学習可能であることを示す。
論文 参考訳(メタデータ) (2021-11-24T17:38:32Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Multi-Agent Semi-Siamese Training for Long-tail and Shallow Face
Learning [54.13876727413492]
多くの現実世界の顔認識シナリオでは、トレーニングデータセットの深さは浅いため、IDごとに2つの顔画像しか利用できません。
非均一なサンプルの増加により、このような問題はより一般的なケース、すなわち長い尾の顔学習に変換される。
これらの問題に対処するために,マルチエージェントセミシアントレーニング(masst)という高度なソリューションを導入する。
広範な実験と比較は、長い尾と浅い顔学習のためのMASSTの利点を示しています。
論文 参考訳(メタデータ) (2021-05-10T04:57:32Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。