論文の概要: The boundary of neural network trainability is fractal
- arxiv url: http://arxiv.org/abs/2402.06184v1
- Date: Fri, 9 Feb 2024 04:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 17:50:24.568591
- Title: The boundary of neural network trainability is fractal
- Title(参考訳): ニューラルネットワークのトレーサビリティの境界はフラクタルである
- Authors: Jascha Sohl-Dickstein
- Abstract要約: いくつかのフラクタルは関数を反復することによって計算される。
ニューラルネットワークのトレーニングは、収束または分岐行動をもたらす可能性がある。
テストされたすべての構成において、この境界は10年以上にわたるスケールのフラクタルであることが分かりました。
- 参考スコア(独自算出の注目度): 23.4886323538853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Some fractals -- for instance those associated with the Mandelbrot and
quadratic Julia sets -- are computed by iterating a function, and identifying
the boundary between hyperparameters for which the resulting series diverges or
remains bounded. Neural network training similarly involves iterating an update
function (e.g. repeated steps of gradient descent), can result in convergent or
divergent behavior, and can be extremely sensitive to small changes in
hyperparameters. Motivated by these similarities, we experimentally examine the
boundary between neural network hyperparameters that lead to stable and
divergent training. We find that this boundary is fractal over more than ten
decades of scale in all tested configurations.
- Abstract(参考訳): いくつかのフラクタル(例えば、マンデルブロ集合と二次ジュリア集合に関連するもの)は、関数を反復し、結果として級数が発散するか、あるいは有界のままであるハイパーパラメーターの境界を特定することによって計算される。
ニューラルネットワークのトレーニングも同様に、更新関数(例えば、勾配降下の繰り返しステップ)を反復することを含み、収束または発散し、ハイパーパラメータの小さな変化に非常に敏感である。
これらの類似性に動機づけられて,安定かつ多様化したトレーニングにつながるニューラルネットワークハイパーパラメータの境界を実験的に検討した。
テストされたすべての構成において、この境界は10年以上にわたるスケールでフラクタルであることが分かりました。
関連論文リスト
- Topological obstruction to the training of shallow ReLU neural networks [0.0]
損失ランドスケープの幾何学と単純なニューラルネットワークの最適化軌跡との相互作用について検討する。
本稿では,勾配流を用いた浅部ReLUニューラルネットワークの損失景観におけるトポロジカル障害物の存在を明らかにする。
論文 参考訳(メタデータ) (2024-10-18T19:17:48Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Complex fractal trainability boundary can arise from trivial non-convexity [0.13597551064547497]
列車のフラクタル境界に繋がる損失特性について検討する。
我々は「粗度摂動」を同定し、勾配の感度パラメータの変化を測定する。
最近の発見は、より一貫性があり予測可能なトレーニング戦略につながるだろう。
論文 参考訳(メタデータ) (2024-06-20T03:31:28Z) - Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。
これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文 参考訳(メタデータ) (2023-06-06T19:02:57Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Limitations of neural network training due to numerical instability of
backpropagation [2.255961793913651]
本研究では,浮動小数点算術を用いて勾配を計算する勾配勾配降下による深層ニューラルネットワークの訓練について検討する。
勾配降下によるトレーニングの過程で、層数に関して超直線的に多くのアフィンピースを維持できるReLUニューラルネットワークを見つける可能性は極めて低い。
我々は,ReLUニューラルネットワークの勾配降下による近似列が理論的に構築された配列と大きく異なることを結論付けた。
論文 参考訳(メタデータ) (2022-10-03T10:34:38Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Going beyond p-convolutions to learn grayscale morphological operators [64.38361575778237]
p-畳み込み層と同じ原理に基づく2つの新しい形態層を提示する。
本研究では, p-畳み込み層と同じ原理に基づく2つの新しい形態層を示す。
論文 参考訳(メタデータ) (2021-02-19T17:22:16Z) - Infinitely Deep Bayesian Neural Networks with Stochastic Differential
Equations [37.02511585732081]
我々は,最近提案された連続深度ニューラルネットワークのファミリーにおいて,スケーラブルな近似推論を行う。
我々は勾配に基づく変分推論を示し、任意フレキシブルな近似後部を生成する。
このアプローチは、さらにメモリ効率の高いトレーニングとニューラルODEのチューナブルな精度を継承する。
論文 参考訳(メタデータ) (2021-02-12T14:48:58Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。