論文の概要: Learning Discretized Neural Networks under Ricci Flow
- arxiv url: http://arxiv.org/abs/2302.03390v4
- Date: Thu, 4 Jan 2024 14:18:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 17:56:59.131977
- Title: Learning Discretized Neural Networks under Ricci Flow
- Title(参考訳): ricci流下における学習離散化ニューラルネットワーク
- Authors: Jun Chen, Hanwen Chen, Mengmeng Wang, Guang Dai, Ivor W. Tsang, Yong
Liu
- Abstract要約: 低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
- 参考スコア(独自算出の注目度): 51.36292559262042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study Discretized Neural Networks (DNNs) composed of
low-precision weights and activations, which suffer from either infinite or
zero gradients due to the non-differentiable discrete function during training.
Most training-based DNNs in such scenarios employ the standard Straight-Through
Estimator (STE) to approximate the gradient w.r.t. discrete values. However,
the use of STE introduces the problem of gradient mismatch, arising from
perturbations in the approximated gradient. To address this problem, this paper
reveals that this mismatch can be interpreted as a metric perturbation in a
Riemannian manifold, viewed through the lens of duality theory. Building on
information geometry, we construct the Linearly Nearly Euclidean (LNE) manifold
for DNNs, providing a background for addressing perturbations. By introducing a
partial differential equation on metrics, i.e., the Ricci flow, we establish
the dynamical stability and convergence of the LNE metric with the $L^2$-norm
perturbation. In contrast to previous perturbation theories with convergence
rates in fractional powers, the metric perturbation under the Ricci flow
exhibits exponential decay in the LNE manifold. Experimental results across
various datasets demonstrate that our method achieves superior and more stable
performance for DNNs compared to other representative training-based methods.
- Abstract(参考訳): 本稿では,低精度重みとアクティベーションから構成される離散ニューラルネットワーク(DNN)について検討する。
このようなシナリオにおけるほとんどのトレーニングベースのDNNは、勾配w.r.t.離散値の近似に標準のSTE(Straight-Through Estimator)を使用している。
しかし、STEの使用は、近似勾配の摂動に起因する勾配ミスマッチの問題を提起する。
この問題に対処するために、このミスマッチはリーマン多様体における計量摂動と解釈でき、双対性理論のレンズを通して見ることができる。
情報幾何学に基づいてDNNのための線形近傍ユークリッド多様体(LNE)を構築し,摂動に対処するための背景を提供する。
計量に偏微分方程式、すなわちリッチフローを導入することにより、LNE計量の動的安定性と収束を$L^2$-norm摂動で確立する。
分数列の収束率を持つ以前の摂動理論とは対照的に、リッチフロー下の計量摂動はLNE多様体において指数減衰を示す。
各種データセットに対する実験結果から,本手法はDNNに対して,他の代表的なトレーニングベース手法と比較して,優れた,より安定した性能を発揮することが示された。
関連論文リスト
- Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - A Geometric Perspective on Diffusion Models [57.27857591493788]
本稿では,人気のある分散拡散型SDEのODEに基づくサンプリングについて検討する。
我々は、最適なODEベースのサンプリングと古典的な平均シフト(モード探索)アルゴリズムの理論的関係を確立する。
論文 参考訳(メタデータ) (2023-05-31T15:33:16Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Toward Equation of Motion for Deep Neural Networks: Continuous-time
Gradient Descent and Discretization Error Analysis [5.71097144710995]
我々はディープニューラルネットワーク(DNN)のための「運動方程式」(EoM)を導出し、解く。
EoM は GD の離散学習力学を正確に記述した連続微分方程式である。
論文 参考訳(メタデータ) (2022-10-28T05:13:50Z) - Designing Universal Causal Deep Learning Models: The Case of
Infinite-Dimensional Dynamical Systems from Stochastic Analysis [3.5450828190071655]
因果作用素(COs)は、現代の分析において中心的な役割を果たす。
COを近似できるディープラーニング(DL)モデルを設計するための標準的なフレームワークはまだ存在しない。
本稿では、DLモデル設計フレームワークを導入することにより、このオープンな問題に対する「幾何学的認識」ソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-24T14:43:03Z) - A PDE-based Explanation of Extreme Numerical Sensitivities and Edge of Stability in Training Neural Networks [12.355137704908042]
勾配降下型深層ネットワーク(SGD)の現在の訓練実践における抑制的数値不安定性を示す。
我々は、偏微分方程式(PDE)の数値解析を用いて理論的枠組みを提示し、畳み込みニューラルネットワーク(CNN)の勾配降下PDEを分析する。
これはCNNの降下に伴う非線形PDEの結果であり、離散化のステップサイズを過度に運転すると局所線形化が変化し、安定化効果がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-04T14:54:05Z) - Learning via nonlinear conjugate gradients and depth-varying neural ODEs [5.565364597145568]
ニューラル常微分方程式(NODE)における深度可変パラメータの教師付き再構成の逆問題について考察する。
提案したパラメータ再構成は,コスト関数の最小化による一般一階微分方程式に対して行われる。
感度問題は、トレーニングされたパラメータの摂動下でのネットワーク出力の変化を推定することができる。
論文 参考訳(メタデータ) (2022-02-11T17:00:48Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - Stationary Density Estimation of It\^o Diffusions Using Deep Learning [6.8342505943533345]
離散時間系列からのエルゴード的伊藤拡散の定常測度に関連する密度推定問題を考察する。
我々は深層ニューラルネットワークを用いてSDEのドリフトと拡散の項を近似する。
我々は、適切な数学的仮定の下で提案されたスキームの収束を確立する。
論文 参考訳(メタデータ) (2021-09-09T01:57:14Z) - Incorporating NODE with Pre-trained Neural Differential Operator for
Learning Dynamics [73.77459272878025]
ニューラル微分演算子(NDO)の事前学習による動的学習における教師付き信号の強化を提案する。
NDOは記号関数のクラスで事前訓練され、これらの関数の軌跡サンプルとそれらの導関数とのマッピングを学習する。
我々は,NDOの出力が,ライブラリの複雑さを適切に調整することで,基礎となる真理微分を適切に近似できることを理論的に保証する。
論文 参考訳(メタデータ) (2021-06-08T08:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。