論文の概要: Toward Equation of Motion for Deep Neural Networks: Continuous-time
Gradient Descent and Discretization Error Analysis
- arxiv url: http://arxiv.org/abs/2210.15898v1
- Date: Fri, 28 Oct 2022 05:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 15:41:48.154095
- Title: Toward Equation of Motion for Deep Neural Networks: Continuous-time
Gradient Descent and Discretization Error Analysis
- Title(参考訳): ディープニューラルネットワークの運動方程式に向けて:連続時間勾配降下と離散化誤差解析
- Authors: Taiki Miyagawa
- Abstract要約: 我々はディープニューラルネットワーク(DNN)のための「運動方程式」(EoM)を導出し、解く。
EoM は GD の離散学習力学を正確に記述した連続微分方程式である。
- 参考スコア(独自算出の注目度): 5.71097144710995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We derive and solve an ``Equation of Motion'' (EoM) for deep neural networks
(DNNs), a differential equation that precisely describes the discrete learning
dynamics of DNNs. Differential equations are continuous but have played a
prominent role even in the study of discrete optimization (gradient descent
(GD) algorithms). However, there still exist gaps between differential
equations and the actual learning dynamics of DNNs due to discretization error.
In this paper, we start from gradient flow (GF) and derive a counter term that
cancels the discretization error between GF and GD. As a result, we obtain EoM,
a continuous differential equation that precisely describes the discrete
learning dynamics of GD. We also derive discretization error to show to what
extent EoM is precise. In addition, we apply EoM to two specific cases: scale-
and translation-invariant layers. EoM highlights differences between
continuous-time and discrete-time GD, indicating the importance of the counter
term for a better description of the discrete learning dynamics of GD. Our
experimental results support our theoretical findings.
- Abstract(参考訳): 我々は、DNNの離散学習力学を正確に記述した微分方程式であるディープニューラルネットワーク(DNN)の「運動方程式」(EoM)を導出し、解いた。
微分方程式は連続であるが、離散最適化(GD)アルゴリズムの研究においても顕著な役割を果たしている。
しかし、微分方程式とDNNの実際の学習力学との間には、離散化誤差によるギャップがある。
本稿では、勾配流(GF)から始まり、GFとGDの離散化誤差をキャンセルする逆項を導出する。
その結果、GDの離散学習力学を正確に記述した連続微分方程式であるEoMが得られる。
また、EoMの精度を示すために、離散化誤差を導出する。
さらに、EoMを2つの特定の例に適用する。
eomは、連続時間と離散時間gdの違いを強調しており、gdの離散学習ダイナミクスをよりよく記述するためのカウンター用語の重要性を示している。
実験結果から理論的知見が得られた。
関連論文リスト
- SEGNO: Generalizing Equivariant Graph Neural Networks with Physical
Inductive Biases [66.61789780666727]
等変性を維持しながら, 2階連続性をGNNに組み込む方法を示す。
また、SEGNOに関する理論的知見も提供し、隣接する状態間の一意の軌跡を学習できることを強調している。
我々のモデルは最先端のベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-25T07:15:58Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - Continuous Depth Recurrent Neural Differential Equations [0.0]
RNNモデルを一般化するための連続深さ再帰型ニューラル微分方程式(CDR-NDE)を提案する。
CDR-NDEはこれらの次元のそれぞれに2つの異なる微分方程式を考慮し、時間方向と深さ方向の進化をモデル化する。
また,隠蔽状態の計算を時間経過に伴う熱方程式の解法として扱う偏微分方程式に基づくCDR-NDE熱モデルを提案する。
論文 参考訳(メタデータ) (2022-12-28T06:34:32Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - Linearization and Identification of Multiple-Attractors Dynamical System
through Laplacian Eigenmaps [8.161497377142584]
速度拡張カーネルを利用したグラフベースのスペクトルクラスタリング手法を提案し,同じダイナミックスに属するデータポイントを接続する。
部分力学が線型であり、n-次元埋め込みが準線型であるような2次元埋め込み空間が常に存在することを証明する。
我々は、ラプラシアン埋め込み空間から元の空間への微分同相性を学び、ラプラシアン埋め込みが良好な再構成精度とより高速な訓練時間をもたらすことを示す。
論文 参考訳(メタデータ) (2022-02-18T12:43:25Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Incorporating NODE with Pre-trained Neural Differential Operator for
Learning Dynamics [73.77459272878025]
ニューラル微分演算子(NDO)の事前学習による動的学習における教師付き信号の強化を提案する。
NDOは記号関数のクラスで事前訓練され、これらの関数の軌跡サンプルとそれらの導関数とのマッピングを学習する。
我々は,NDOの出力が,ライブラリの複雑さを適切に調整することで,基礎となる真理微分を適切に近似できることを理論的に保証する。
論文 参考訳(メタデータ) (2021-06-08T08:04:47Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。