論文の概要: Meta-Principled Family of Hyperparameter Scaling Strategies
- arxiv url: http://arxiv.org/abs/2210.04909v1
- Date: Mon, 10 Oct 2022 18:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 15:18:54.955130
- Title: Meta-Principled Family of Hyperparameter Scaling Strategies
- Title(参考訳): ハイパーパラメータスケーリング戦略のメタ原理ファミリー
- Authors: Sho Yaida
- Abstract要約: 広範かつ深いニューラルネットワークのための動的オブザーバブル(ネットワーク出力、ニューラルタンジェントカーネル、ニューラルタンジェントカーネルの差分)のスケーリングを計算する。
文献で調べた無限幅制限は、相互接続されたウェブの異なる角に対応する。
- 参考スコア(独自算出の注目度): 9.89901717499058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this note, we first derive a one-parameter family of hyperparameter
scaling strategies that interpolates between the neural-tangent scaling and
mean-field/maximal-update scaling. We then calculate the scalings of dynamical
observables -- network outputs, neural tangent kernels, and differentials of
neural tangent kernels -- for wide and deep neural networks. These calculations
in turn reveal a proper way to scale depth with width such that resultant
large-scale models maintain their representation-learning ability. Finally, we
observe that various infinite-width limits examined in the literature
correspond to the distinct corners of the interconnected web spanned by
effective theories for finite-width neural networks, with their training
dynamics ranging from being weakly-coupled to being strongly-coupled.
- Abstract(参考訳): 本稿ではまず,ニューラルタングエントスケーリングと平均場/最大更新スケーリングを補間するハイパーパラメータスケーリング戦略の1パラメータファミリーを導出する。
次に,ネットワーク出力,神経接核,神経接核の微分といった動的観測可能性のスケーリングを,広大かつ深層ニューラルネットワークに対して計算する。
これらの計算は、結果として生じる大規模モデルが表現学習能力を維持するように、深さを幅でスケールする適切な方法を示している。
最後に、文献で検討された様々な無限幅限界は、有限幅ニューラルネットワークの有効理論によってまたがる相互接続されたウェブの異なる隅角に対応し、そのトレーニングダイナミクスは弱結合から強結合まで幅広い。
関連論文リスト
- Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - Over-parameterised Shallow Neural Networks with Asymmetrical Node
Scaling: Global Convergence Guarantees and Feature Learning [23.47570704524471]
我々は,各隠れノードの出力を正のパラメータでスケールする勾配流による大規模および浅層ニューラルネットワークの最適化を検討する。
大規模なニューラルネットワークでは、高い確率で勾配流がグローバルな最小限に収束し、NTK体制とは異なり、特徴を学習できることを実証する。
論文 参考訳(メタデータ) (2023-02-02T10:40:06Z) - Exploring the Approximation Capabilities of Multiplicative Neural
Networks for Smooth Functions [9.936974568429173]
対象関数のクラスは、一般化帯域制限関数とソボレフ型球である。
以上の結果から、乗法ニューラルネットワークは、これらの関数をはるかに少ない層とニューロンで近似できることを示した。
これらの結果は、乗法ゲートが標準フィードフォワード層より優れ、ニューラルネットワーク設計を改善する可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-01-11T17:57:33Z) - On neural network kernels and the storage capacity problem [16.244541005112747]
広層木状ニューラルネットワークにおける記憶容量問題と,広層ニューラルネットワークのカーネル限界に関する文献の急速な発展との間にある関係を整理する。
論文 参考訳(メタデータ) (2022-01-12T19:47:30Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - Hyperbolic Neural Networks++ [66.16106727715061]
ニューラルネットワークの基本成分を1つの双曲幾何モデル、すなわちポアンカーの球モデルで一般化する。
実験により, 従来の双曲成分と比較してパラメータ効率が優れ, ユークリッド成分よりも安定性と性能が優れていた。
論文 参考訳(メタデータ) (2020-06-15T08:23:20Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。