論文の概要: Geometrical structures of digital fluctuations in parameter space of neural networks trained with adaptive momentum optimization
- arxiv url: http://arxiv.org/abs/2408.12273v1
- Date: Thu, 22 Aug 2024 10:14:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 14:23:36.773664
- Title: Geometrical structures of digital fluctuations in parameter space of neural networks trained with adaptive momentum optimization
- Title(参考訳): 適応運動量最適化を用いたニューラルネットワークのパラメータ空間におけるディジタルゆらぎの幾何学的構造
- Authors: Igor V. Netay,
- Abstract要約: 数値的なアーティファクトは,大規模モデルだけでなく,狭い狭いネットワークにおいても観測可能であることを示す。
我々は、この理論を、1600以上のニューラルネットワークで50万回以上のエポックで訓練された実験によって論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present results of numerical experiments for neural networks with stochastic gradient-based optimization with adaptive momentum. This widely applied optimization has proved convergence and practical efficiency, but for long-run training becomes numerically unstable. We show that numerical artifacts are observable not only for large-scale models and finally lead to divergence also for case of shallow narrow networks. We argue this theory by experiments with more than 1600 neural networks trained for 50000 epochs. Local observations show presence of the same behavior of network parameters in both stable and unstable training segments. Geometrical behavior of parameters forms double twisted spirals in the parameter space and is caused by alternating of numerical perturbations with next relaxation oscillations in values for 1st and 2nd momentum.
- Abstract(参考訳): 本稿では,適応運動量を用いた確率勾配最適化ニューラルネットワークの数値実験結果について述べる。
この広く応用された最適化は収束性と実効性を示したが、長期トレーニングでは数値的に不安定になる。
数値的なアーティファクトは大規模モデルに限らず観測可能であることを示す。
我々は、この理論を、1600以上のニューラルネットワークで50万回以上のエポックで訓練された実験によって論じる。
局所的な観測は、安定なトレーニングセグメントと不安定なトレーニングセグメントの両方において、ネットワークパラメータの同じ挙動の存在を示す。
パラメータの幾何学的挙動は、パラメータ空間において二重ねじれスパイラルを形成し、第1運動量と第2運動量に対する値の次の緩和振動を伴う数値摂動の交互化によって引き起こされる。
関連論文リスト
- The Empirical Impact of Neural Parameter Symmetries, or Lack Thereof [50.49582712378289]
ニューラル・ネットワーク・アーキテクチャの導入により,ニューラル・パラメータ・対称性の影響について検討する。
我々は,パラメータ空間対称性を低減するために,標準的なニューラルネットワークを改良する2つの手法を開発した。
実験により,パラメータ対称性の経験的影響に関する興味深い観察がいくつか示された。
論文 参考訳(メタデータ) (2024-05-30T16:32:31Z) - Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - SimPINNs: Simulation-Driven Physics-Informed Neural Networks for
Enhanced Performance in Nonlinear Inverse Problems [0.0]
本稿では,ディープラーニング技術を活用した逆問題の解法を提案する。
目的は、観測データに基づいて物理システムを管理する未知のパラメータを推論することである。
論文 参考訳(メタデータ) (2023-09-27T06:34:55Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - On the reproducibility of fully convolutional neural networks for
modeling time-space evolving physical systems [0.0]
ディープラーニング完全畳み込みニューラルネットワークは、同じ条件で同じネットワークを数回トレーニングすることで評価される。
ダブル浮動小数点精度で実施したトレーニングは、ネットワークパラメータとテストエラー範囲の両方のばらつきを大幅に低減し、見積もりをわずかに改善する。
論文 参考訳(メタデータ) (2021-05-12T07:39:30Z) - Physical invariance in neural networks for subgrid-scale scalar flux
modeling [5.333802479607541]
物理インフォームドニューラルネットワーク(NN)を用いた3次元乱流非圧縮性流れのサブグリッドスケールスカラーフラックスをモデル化するための新しい戦略を提案する。
提案した変換不変NNモデルは、純粋にデータ駆動モデルとパラメトリックなサブグリッドスケールモデルの両方より優れていることを示す。
論文 参考訳(メタデータ) (2020-10-09T16:09:54Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。