Fugu-MT 論文翻訳(概要): Meta-Principled Family of Hyperparameter Scaling Strategies

論文の概要: Meta-Principled Family of Hyperparameter Scaling Strategies

arxiv url: http://arxiv.org/abs/2210.04909v1
Date: Mon, 10 Oct 2022 18:00:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 15:18:54.955130
Title: Meta-Principled Family of Hyperparameter Scaling Strategies
Title（参考訳）: ハイパーパラメータスケーリング戦略のメタ原理ファミリー
Authors: Sho Yaida
Abstract要約: 広範かつ深いニューラルネットワークのための動的オブザーバブル(ネットワーク出力、ニューラルタンジェントカーネル、ニューラルタンジェントカーネルの差分)のスケーリングを計算する。文献で調べた無限幅制限は、相互接続されたウェブの異なる角に対応する。
参考スコア（独自算出の注目度）: 9.89901717499058
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this note, we first derive a one-parameter family of hyperparameter scaling strategies that interpolates between the neural-tangent scaling and mean-field/maximal-update scaling. We then calculate the scalings of dynamical observables -- network outputs, neural tangent kernels, and differentials of neural tangent kernels -- for wide and deep neural networks. These calculations in turn reveal a proper way to scale depth with width such that resultant large-scale models maintain their representation-learning ability. Finally, we observe that various infinite-width limits examined in the literature correspond to the distinct corners of the interconnected web spanned by effective theories for finite-width neural networks, with their training dynamics ranging from being weakly-coupled to being strongly-coupled.
Abstract（参考訳）: 本稿ではまず,ニューラルタングエントスケーリングと平均場/最大更新スケーリングを補間するハイパーパラメータスケーリング戦略の1パラメータファミリーを導出する。次に,ネットワーク出力,神経接核,神経接核の微分といった動的観測可能性のスケーリングを,広大かつ深層ニューラルネットワークに対して計算する。これらの計算は、結果として生じる大規模モデルが表現学習能力を維持するように、深さを幅でスケールする適切な方法を示している。最後に、文献で検討された様々な無限幅限界は、有限幅ニューラルネットワークの有効理論によってまたがる相互接続されたウェブの異なる隅角に対応し、そのトレーニングダイナミクスは弱結合から強結合まで幅広い。

関連論文リスト

Beyond Scaling Curves: Internal Dynamics of Neural Networks Through the NTK Lens [0.5745241788717261]
我々は、ニューラルネットワークがデータの下でどのように振る舞うかを経験的に分析し、ニューラル・タンジェント・カーネル(NTK)のレンズを通してモデルをスケーリングする。我々の標準的な視覚タスクの発見は、内部モデル力学が逆の挙動を示すにもかかわらず、同様のパフォーマンススケーリング指数が生じることを示している。また、無限幅制限への収束が有限幅モデルにおけるスケーリングの挙動にどのように影響するかという未解決のニューラルスケーリング問題にも対処する。
論文参考訳（メタデータ） (2025-07-07T14:17:44Z)
Training Neural Networks by Optimizing Neuron Positions [39.682133213072554]
ユークリッド空間にニューロンが埋め込まれたパラメータ効率のよいニューラルネットワークを提案する。トレーニング中、それらの位置は最適化され、シナプス重みは連結ニューロン間の空間距離の反転として決定される。これらの距離依存配線規則は、伝統的な学習可能な重量行列を置き換え、生物学的にインスパイアされた誘導バイアスを導入しながらパラメータの数を著しく削減する。
論文参考訳（メタデータ） (2025-06-16T12:26:13Z)
An Analysis Framework for Understanding Deep Neural Networks Based on Network Dynamics [11.44947569206928]
ディープニューラルネットワーク(DNN)は、ディープ層にまたがる異なるモードのニューロンの割合を合理的に割り当てることで、情報抽出を最大化する。このフレームワークは、"フラット・ミニマ効果(flat minima effect)"、"グロッキング(grokking)"、二重降下現象(double descend phenomena)など、基本的なDNNの振る舞いについて統一的な説明を提供する。
論文参考訳（メタデータ） (2025-01-05T04:23:21Z)
Stochastic Gradient Descent for Two-layer Neural Networks [2.0349026069285423]
本稿では、過パラメータ化された2層ニューラルネットワークに適用した場合の降下(SGD)アルゴリズムの収束率について検討する。提案手法は,NTKのタンジェントカーネル(NTK)近似と,NTKが生成する再生カーネル空間(RKHS)の収束解析を組み合わせたものである。我々の研究フレームワークは、カーネルメソッドと最適化プロセスの間の複雑な相互作用を探索し、ニューラルネットワークのダイナミクスと収束特性に光を当てることを可能にする。
論文参考訳（メタデータ） (2024-07-10T13:58:57Z)
Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文参考訳（メタデータ） (2024-03-18T18:01:01Z)
Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文参考訳（メタデータ） (2023-07-20T13:34:11Z)
Universal Scaling Laws of Absorbing Phase Transitions in Artificial Deep Neural Networks [0.8932296777085644]
信号伝播ダイナミクスの位相境界付近で動作する従来の人工深層ニューラルネットワークは、カオスのエッジとしても知られ、位相遷移を吸収する普遍的なスケーリング法則を示す。数値計算の結果,多層パーセプトロンと畳み込みニューラルネットワークはそれぞれ平均フィールドと有向パーコレーションクラスに属していることがわかった。
論文参考訳（メタデータ） (2023-07-05T13:39:02Z)
Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文参考訳（メタデータ） (2023-03-05T17:57:33Z)
Over-parameterised Shallow Neural Networks with Asymmetrical Node Scaling: Global Convergence Guarantees and Feature Learning [23.47570704524471]
我々は,各隠れノードの出力を正のパラメータでスケールする勾配流による大規模および浅層ニューラルネットワークの最適化を検討する。大規模なニューラルネットワークでは、高い確率で勾配流がグローバルな最小限に収束し、NTK体制とは異なり、特徴を学習できることを実証する。
論文参考訳（メタデータ） (2023-02-02T10:40:06Z)
On neural network kernels and the storage capacity problem [16.244541005112747]
広層木状ニューラルネットワークにおける記憶容量問題と,広層ニューラルネットワークのカーネル限界に関する文献の急速な発展との間にある関係を整理する。
論文参考訳（メタデータ） (2022-01-12T19:47:30Z)
Training Integrable Parameterizations of Deep Neural Networks in the Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。 2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文参考訳（メタデータ） (2021-10-29T07:53:35Z)
Generalization bound of globally optimal non-convex neural network training: Transportation map estimation by infinite dimensional Langevin dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文参考訳（メタデータ） (2020-07-11T18:19:50Z)
Hyperbolic Neural Networks++ [66.16106727715061]
ニューラルネットワークの基本成分を1つの双曲幾何モデル、すなわちポアンカーの球モデルで一般化する。実験により, 従来の双曲成分と比較してパラメータ効率が優れ, ユークリッド成分よりも安定性と性能が優れていた。
論文参考訳（メタデータ） (2020-06-15T08:23:20Z)
Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文参考訳（メタデータ） (2020-01-14T22:26:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。