論文の概要: Speed Limits for Deep Learning
- arxiv url: http://arxiv.org/abs/2307.14653v1
- Date: Thu, 27 Jul 2023 06:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 15:29:55.403301
- Title: Speed Limits for Deep Learning
- Title(参考訳): ディープラーニングのための速度制限
- Authors: Inbar Seroussi, Alexander A. Alemi, Moritz Helias, Zohar Ringel
- Abstract要約: 熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
- 参考スコア(独自算出の注目度): 67.69149326107103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art neural networks require extreme computational power to
train. It is therefore natural to wonder whether they are optimally trained.
Here we apply a recent advancement in stochastic thermodynamics which allows
bounding the speed at which one can go from the initial weight distribution to
the final distribution of the fully trained network, based on the ratio of
their Wasserstein-2 distance and the entropy production rate of the dynamical
process connecting them. Considering both gradient-flow and Langevin training
dynamics, we provide analytical expressions for these speed limits for linear
and linearizable neural networks e.g. Neural Tangent Kernel (NTK). Remarkably,
given some plausible scaling assumptions on the NTK spectra and spectral
decomposition of the labels -- learning is optimal in a scaling sense. Our
results are consistent with small-scale experiments with Convolutional Neural
Networks (CNNs) and Fully Connected Neural networks (FCNs) on CIFAR-10, showing
a short highly non-optimal regime followed by a longer optimal regime.
- Abstract(参考訳): 最先端のニューラルネットワークは、トレーニングに極端な計算能力を必要とする。
したがって、それらが最適に訓練されているかどうか疑問に思うのは自然である。
本稿では,Wasserstein-2 距離の比とそれらを接続する力学過程のエントロピー生成率に基づいて,初期重量分布から完全トレーニングネットワークの最終分布への移動速度を制限できる確率的熱力学の最近の進歩を適用する。
勾配流とランジュバンのトレーニングダイナミクスの両方を考慮すると、線形および線形化可能なニューラルネットワーク(例えば、neural tangent kernel(ntk))の速度制限に関する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
この結果はCIFAR-10上での畳み込みニューラルネットワーク(CNN)と完全連結ニューラルネットワーク(FCN)による小規模な実験と一致する。
関連論文リスト
- Accelerating SNN Training with Stochastic Parallelizable Spiking Neurons [1.7056768055368383]
スパイキングニューラルネットワーク(SNN)は、特にニューロモルフィックハードウェアにおいて、少ないエネルギーを使用しながら特徴を学習することができる。
深層学習において最も広く用いられるニューロンは、時間と火災(LIF)ニューロンである。
論文 参考訳(メタデータ) (2023-06-22T04:25:27Z) - SPIDE: A Purely Spike-based Method for Training Feedback Spiking Neural
Networks [56.35403810762512]
イベントベースの計算を伴うスパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェアにおけるエネルギー効率の高い応用のために、脳にインスパイアされたモデルを約束している。
本研究では,最近提案されたトレーニング手法を拡張した平衡状態(SPIDE)に対するスパイクに基づく暗黙差分法について検討した。
論文 参考訳(メタデータ) (2023-02-01T04:22:59Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Mean-Field Analysis of Two-Layer Neural Networks: Global Optimality with
Linear Convergence Rates [7.094295642076582]
平均場体制はNTK(lazy training)体制の理論的に魅力的な代替手段である。
平均場状態における連続ノイズ降下により訓練された2層ニューラルネットワークに対する線形収束結果を確立した。
論文 参考訳(メタデータ) (2022-05-19T21:05:40Z) - A Convergence Analysis of Nesterov's Accelerated Gradient Method in
Training Deep Linear Neural Networks [21.994004684742812]
モメンタム法は高速軌道のトレーニングネットワークで広く用いられている。
ランダム数と$kappaOの収束は、大域的な最小値に収束できることを示す。
我々は解析を深い線形ResNetに拡張し、同様の結果を導出する。
論文 参考訳(メタデータ) (2022-04-18T13:24:12Z) - A quantum algorithm for training wide and deep classical neural networks [72.2614468437919]
勾配勾配勾配による古典的トレーサビリティに寄与する条件は、量子線形系を効率的に解くために必要な条件と一致することを示す。
MNIST画像データセットがそのような条件を満たすことを数値的に示す。
我々は、プールを用いた畳み込みニューラルネットワークのトレーニングに$O(log n)$の実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-07-19T23:41:03Z) - FL-NTK: A Neural Tangent Kernel-based Framework for Federated Learning
Convergence Analysis [27.022551495550676]
本稿では,FLの勾配降下によって訓練された過減化ReLUニューラルネットワークに対応するFL-NTK(Learning Neural Kernel)について,新しい収束解析法を提案する。
理論的には、FL-NTKは線形学習パラメータを適切に調整した自明な速度で大域最適解に収束する。
論文 参考訳(メタデータ) (2021-05-11T13:05:53Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。