論文の概要: Meta-Principled Family of Hyperparameter Scaling Strategies
- arxiv url: http://arxiv.org/abs/2210.04909v1
- Date: Mon, 10 Oct 2022 18:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 15:18:54.955130
- Title: Meta-Principled Family of Hyperparameter Scaling Strategies
- Title(参考訳): ハイパーパラメータスケーリング戦略のメタ原理ファミリー
- Authors: Sho Yaida
- Abstract要約: 広範かつ深いニューラルネットワークのための動的オブザーバブル(ネットワーク出力、ニューラルタンジェントカーネル、ニューラルタンジェントカーネルの差分)のスケーリングを計算する。
文献で調べた無限幅制限は、相互接続されたウェブの異なる角に対応する。
- 参考スコア(独自算出の注目度): 9.89901717499058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this note, we first derive a one-parameter family of hyperparameter
scaling strategies that interpolates between the neural-tangent scaling and
mean-field/maximal-update scaling. We then calculate the scalings of dynamical
observables -- network outputs, neural tangent kernels, and differentials of
neural tangent kernels -- for wide and deep neural networks. These calculations
in turn reveal a proper way to scale depth with width such that resultant
large-scale models maintain their representation-learning ability. Finally, we
observe that various infinite-width limits examined in the literature
correspond to the distinct corners of the interconnected web spanned by
effective theories for finite-width neural networks, with their training
dynamics ranging from being weakly-coupled to being strongly-coupled.
- Abstract(参考訳): 本稿ではまず,ニューラルタングエントスケーリングと平均場/最大更新スケーリングを補間するハイパーパラメータスケーリング戦略の1パラメータファミリーを導出する。
次に,ネットワーク出力,神経接核,神経接核の微分といった動的観測可能性のスケーリングを,広大かつ深層ニューラルネットワークに対して計算する。
これらの計算は、結果として生じる大規模モデルが表現学習能力を維持するように、深さを幅でスケールする適切な方法を示している。
最後に、文献で検討された様々な無限幅限界は、有限幅ニューラルネットワークの有効理論によってまたがる相互接続されたウェブの異なる隅角に対応し、そのトレーニングダイナミクスは弱結合から強結合まで幅広い。
関連論文リスト
- An Analysis Framework for Understanding Deep Neural Networks Based on Network Dynamics [11.44947569206928]
ディープニューラルネットワーク(DNN)は、ディープ層にまたがる異なるモードのニューロンの割合を合理的に割り当てることで、情報抽出を最大化する。
このフレームワークは、"フラット・ミニマ効果(flat minima effect)"、"グロッキング(grokking)"、二重降下現象(double descend phenomena)など、基本的なDNNの振る舞いについて統一的な説明を提供する。
論文 参考訳(メタデータ) (2025-01-05T04:23:21Z) - Stochastic Gradient Descent for Two-layer Neural Networks [2.0349026069285423]
本稿では、過パラメータ化された2層ニューラルネットワークに適用した場合の降下(SGD)アルゴリズムの収束率について検討する。
提案手法は,NTKのタンジェントカーネル(NTK)近似と,NTKが生成する再生カーネル空間(RKHS)の収束解析を組み合わせたものである。
我々の研究フレームワークは、カーネルメソッドと最適化プロセスの間の複雑な相互作用を探索し、ニューラルネットワークのダイナミクスと収束特性に光を当てることを可能にする。
論文 参考訳(メタデータ) (2024-07-10T13:58:57Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Universal Scaling Laws of Absorbing Phase Transitions in Artificial Deep Neural Networks [0.8932296777085644]
信号伝播ダイナミクスの位相境界付近で動作する従来の人工深層ニューラルネットワークは、カオスのエッジとしても知られ、位相遷移を吸収する普遍的なスケーリング法則を示す。
数値計算の結果,多層パーセプトロンと畳み込みニューラルネットワークはそれぞれ平均フィールドと有向パーコレーションクラスに属していることがわかった。
論文 参考訳(メタデータ) (2023-07-05T13:39:02Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - On neural network kernels and the storage capacity problem [16.244541005112747]
広層木状ニューラルネットワークにおける記憶容量問題と,広層ニューラルネットワークのカーネル限界に関する文献の急速な発展との間にある関係を整理する。
論文 参考訳(メタデータ) (2022-01-12T19:47:30Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - Hyperbolic Neural Networks++ [66.16106727715061]
ニューラルネットワークの基本成分を1つの双曲幾何モデル、すなわちポアンカーの球モデルで一般化する。
実験により, 従来の双曲成分と比較してパラメータ効率が優れ, ユークリッド成分よりも安定性と性能が優れていた。
論文 参考訳(メタデータ) (2020-06-15T08:23:20Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。