論文の概要: Complex fractal trainability boundary can arise from trivial non-convexity
- arxiv url: http://arxiv.org/abs/2406.13971v1
- Date: Thu, 20 Jun 2024 03:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 17:27:03.310683
- Title: Complex fractal trainability boundary can arise from trivial non-convexity
- Title(参考訳): 複雑なフラクタルトレーサビリティ境界は自明な非凸性から生じうる
- Authors: Yizhou Liu,
- Abstract要約: 列車のフラクタル境界に繋がる損失特性について検討する。
我々は「粗度摂動」を同定し、勾配の感度パラメータの変化を測定する。
最近の発見は、より一貫性があり予測可能なトレーニング戦略につながるだろう。
- 参考スコア(独自算出の注目度): 0.13597551064547497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training neural networks involves optimizing parameters to minimize a loss function, where the nature of the loss function and the optimization strategy are crucial for effective training. Hyperparameter choices, such as the learning rate in gradient descent (GD), significantly affect the success and speed of convergence. Recent studies indicate that the boundary between bounded and divergent hyperparameters can be fractal, complicating reliable hyperparameter selection. However, the nature of this fractal boundary and methods to avoid it remain unclear. In this study, we focus on GD to investigate the loss landscape properties that might lead to fractal trainability boundaries. We discovered that fractal boundaries can emerge from simple non-convex perturbations, i.e., adding or multiplying cosine type perturbations to quadratic functions. The observed fractal dimensions are influenced by factors like parameter dimension, type of non-convexity, perturbation wavelength, and perturbation amplitude. Our analysis identifies "roughness of perturbation", which measures the gradient's sensitivity to parameter changes, as the factor controlling fractal dimensions of trainability boundaries. We observed a clear transition from non-fractal to fractal trainability boundaries as roughness increases, with the critical roughness causing the perturbed loss function non-convex. Thus, we conclude that fractal trainability boundaries can arise from very simple non-convexity. We anticipate that our findings will enhance the understanding of complex behaviors during neural network training, leading to more consistent and predictable training strategies.
- Abstract(参考訳): ニューラルネットワークのトレーニングには、損失関数の性質と最適化戦略が効果的なトレーニングに不可欠である損失関数を最小限にするためにパラメータを最適化することが含まれる。
勾配降下(GD)における学習率などのハイパーパラメータの選択は、収束の成功と速度に大きな影響を及ぼす。
近年の研究では、境界パラメータと発散パラメータの境界はフラクタルであり、信頼性の高いハイパーパラメータ選択が複雑であることが示された。
しかし、このフラクタル境界の性質とそれを避ける方法は不明である。
本研究では, フラクタルトレーサビリティ境界につながる可能性のある損失景観特性を明らかにするため, GDに着目した。
フラクタル境界は単純な非凸摂動、すなわち2次関数へのコサイン型摂動の追加や乗算から生じる。
観測されたフラクタル次元は、パラメータ次元、非凸性の種類、摂動波長、摂動振幅などの影響を受けている。
本分析では, トレーニング性境界のフラクタル次元を制御する因子として, パラメータ変化に対する勾配の感度を測定する「摂動の粗さ」を同定した。
粗さの増加に伴い,非フラクタルからフラクタルのトレーサビリティ境界への明確な遷移が観察され,その致命的な粗さが乱れ損失関数の非凸の原因となった。
したがって, フラクタルトレーサビリティの境界は, 非常に単純な非凸性から生じる可能性がある。
我々は、ニューラルネットワークトレーニング中の複雑な行動の理解を深め、より一貫性があり予測可能なトレーニング戦略をもたらすことを期待する。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - On the Stability of Gradient Descent for Large Learning Rate [62.19241612132701]
ニューラルネットワークトレーニングにおいて、エッジ・オブ・安定性(EoS)は、エポック上での損失関数の非単調な減少を特徴とする。
2次損失関数の下で最適化された線形ニューラルネットワークは、第1の仮定および第2の仮定に必要な条件を満たすことを示す。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - The boundary of neural network trainability is fractal [23.4886323538853]
いくつかのフラクタルは関数を反復することによって計算される。
ニューラルネットワークのトレーニングは、収束または分岐行動をもたらす可能性がある。
テストされたすべての構成において、この境界は10年以上にわたるスケールのフラクタルであることが分かりました。
論文 参考訳(メタデータ) (2024-02-09T04:46:48Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。
これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文 参考訳(メタデータ) (2023-06-06T19:02:57Z) - Early Stage Convergence and Global Convergence of Training Mildly
Parameterized Neural Networks [3.148524502470734]
トレーニングの初期段階において,損失はかなりの量減少し,この減少は急速に進行することを示す。
我々は、ニューロンの活性化パターンを顕微鏡で解析し、勾配のより強力な下界を導出するのに役立つ。
論文 参考訳(メタデータ) (2022-06-05T09:56:50Z) - Phenomenology of Double Descent in Finite-Width Neural Networks [29.119232922018732]
二重降下(double descend)は、モデルが属する体制に依存して行動を記述する。
我々は影響関数を用いて、人口減少とその下限の適切な表現を導出する。
本分析に基づき,損失関数が二重降下に与える影響について検討した。
論文 参考訳(メタデータ) (2022-03-14T17:39:49Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Asymptotic convergence rate of Dropout on shallow linear neural networks [0.0]
本研究では, 微小線形ニューラルネットワークに適用する場合に, ドロップアウトとドロップコネクションによって誘導される目的関数の収束度を解析する。
我々は、勾配流の局所収束証明と、そのデータ、レート確率、NNの幅に依存する速度のバウンダリを得る。
論文 参考訳(メタデータ) (2020-12-01T19:02:37Z) - Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。
実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文 参考訳(メタデータ) (2020-10-05T14:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。