論文の概要: Learning Discretized Neural Networks under Ricci Flow
- arxiv url: http://arxiv.org/abs/2302.03390v1
- Date: Tue, 7 Feb 2023 10:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 16:43:27.673328
- Title: Learning Discretized Neural Networks under Ricci Flow
- Title(参考訳): ricci流下における学習離散化ニューラルネットワーク
- Authors: Jun Chen, Hanwen Chen, Mengmeng Wang, Yong Liu
- Abstract要約: 離散ニューラルネットワーク(DNN)は、トレーニングプロセスにおいて、微分不可能な離散関数によって生じる無限あるいはゼロの勾配に悩まされる。
線形近傍ユークリッド(LNE)における計量の摂動として近似勾配の摂動を考えるために双対性理論を導入する。
Ricci-DeTurckフローの下では、LNE計量の動的安定性と収束を$L2$-norm摂動で証明する。
- 参考スコア(独自算出の注目度): 22.204610009095465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider Discretized Neural Networks (DNNs) consisting of
low-precision weights and activations, which suffer from either infinite or
zero gradients caused by the non-differentiable discrete function in the
training process. In this case, most training-based DNNs use the standard
Straight-Through Estimator (STE) to approximate the gradient w.r.t. discrete
value. However, the standard STE will cause the gradient mismatch problem,
i.e., the approximated gradient direction may deviate from the steepest descent
direction. In other words, the gradient mismatch implies the approximated
gradient with perturbations. To address this problem, we introduce the duality
theory to regard the perturbation of the approximated gradient as the
perturbation of the metric in Linearly Nearly Euclidean (LNE) manifolds.
Simultaneously, under the Ricci-DeTurck flow, we prove the dynamical stability
and convergence of the LNE metric with the $L^2$-norm perturbation, which can
provide a theoretical solution for the gradient mismatch problem. In practice,
we also present the steepest descent gradient flow for DNNs on LNE manifolds
from the viewpoints of the information geometry and mirror descent. The
experimental results on various datasets demonstrate that our method achieves
better and more stable performance for DNNs than other representative
training-based methods.
- Abstract(参考訳): 本稿では,非微分的離散関数によって引き起こされる無限勾配あるいはゼロ勾配に苦しむ低精度重みとアクティベーションからなる離散化ニューラルネットワーク(dnn)について検討する。
この場合、ほとんどのトレーニングベースのDNNはSTE(Straight-Through Estimator)を使用して勾配w.r.t.離散値を近似する。
しかし、標準STEは勾配ミスマッチ問題、すなわち、近似された勾配方向を最も急降下方向から逸脱させる可能性がある。
言い換えれば、勾配ミスマッチは摂動を伴う近似勾配を意味する。
この問題に対処するために、近似勾配の摂動を線形に近似ユークリッド(lne)多様体における計量の摂動とみなすために双対性理論を導入する。
同時に、リッチ・デテュルク流の下では、LNE計量の動的安定性と収束を$L^2$-norm摂動で証明し、勾配ミスマッチ問題に対する理論的解を与えることができる。
実際には、情報幾何学とミラー降下の観点から、LNE多様体上のDNNの最も急勾配勾配流を提示する。
各種データセットに対する実験結果から,本手法はDNNに対して,他の代表的なトレーニングベース手法よりも優れた,より安定した性能を示すことが示された。
関連論文リスト
- Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - A Geometric Perspective on Diffusion Models [57.27857591493788]
本稿では,人気のある分散拡散型SDEのODEに基づくサンプリングについて検討する。
我々は、最適なODEベースのサンプリングと古典的な平均シフト(モード探索)アルゴリズムの理論的関係を確立する。
論文 参考訳(メタデータ) (2023-05-31T15:33:16Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Toward Equation of Motion for Deep Neural Networks: Continuous-time
Gradient Descent and Discretization Error Analysis [5.71097144710995]
我々はディープニューラルネットワーク(DNN)のための「運動方程式」(EoM)を導出し、解く。
EoM は GD の離散学習力学を正確に記述した連続微分方程式である。
論文 参考訳(メタデータ) (2022-10-28T05:13:50Z) - Designing Universal Causal Deep Learning Models: The Case of
Infinite-Dimensional Dynamical Systems from Stochastic Analysis [3.5450828190071655]
因果作用素(COs)は、現代の分析において中心的な役割を果たす。
COを近似できるディープラーニング(DL)モデルを設計するための標準的なフレームワークはまだ存在しない。
本稿では、DLモデル設計フレームワークを導入することにより、このオープンな問題に対する「幾何学的認識」ソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-24T14:43:03Z) - A PDE-based Explanation of Extreme Numerical Sensitivities and Edge of Stability in Training Neural Networks [12.355137704908042]
勾配降下型深層ネットワーク(SGD)の現在の訓練実践における抑制的数値不安定性を示す。
我々は、偏微分方程式(PDE)の数値解析を用いて理論的枠組みを提示し、畳み込みニューラルネットワーク(CNN)の勾配降下PDEを分析する。
これはCNNの降下に伴う非線形PDEの結果であり、離散化のステップサイズを過度に運転すると局所線形化が変化し、安定化効果がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-04T14:54:05Z) - Learning via nonlinear conjugate gradients and depth-varying neural ODEs [5.565364597145568]
ニューラル常微分方程式(NODE)における深度可変パラメータの教師付き再構成の逆問題について考察する。
提案したパラメータ再構成は,コスト関数の最小化による一般一階微分方程式に対して行われる。
感度問題は、トレーニングされたパラメータの摂動下でのネットワーク出力の変化を推定することができる。
論文 参考訳(メタデータ) (2022-02-11T17:00:48Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - Stationary Density Estimation of It\^o Diffusions Using Deep Learning [6.8342505943533345]
離散時間系列からのエルゴード的伊藤拡散の定常測度に関連する密度推定問題を考察する。
我々は深層ニューラルネットワークを用いてSDEのドリフトと拡散の項を近似する。
我々は、適切な数学的仮定の下で提案されたスキームの収束を確立する。
論文 参考訳(メタデータ) (2021-09-09T01:57:14Z) - Incorporating NODE with Pre-trained Neural Differential Operator for
Learning Dynamics [73.77459272878025]
ニューラル微分演算子(NDO)の事前学習による動的学習における教師付き信号の強化を提案する。
NDOは記号関数のクラスで事前訓練され、これらの関数の軌跡サンプルとそれらの導関数とのマッピングを学習する。
我々は,NDOの出力が,ライブラリの複雑さを適切に調整することで,基礎となる真理微分を適切に近似できることを理論的に保証する。
論文 参考訳(メタデータ) (2021-06-08T08:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。