論文の概要: Neural Mechanics: Symmetry and Broken Conservation Laws in Deep Learning
Dynamics
- arxiv url: http://arxiv.org/abs/2012.04728v2
- Date: Mon, 29 Mar 2021 16:02:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:33:08.342330
- Title: Neural Mechanics: Symmetry and Broken Conservation Laws in Deep Learning
Dynamics
- Title(参考訳): 神経力学:深層学習力学における対称性と破壊保存則
- Authors: Daniel Kunin, Javier Sagastuy-Brena, Surya Ganguli, Daniel L.K.
Yamins, Hidenori Tanaka
- Abstract要約: トレーニング中のニューラルネットワークパラメータのダイナミクスを理解することは、ディープラーニングの理論基盤を構築する上で重要な課題のひとつだ。
このような対称性は勾配やヘッシアンに厳密な幾何学的制約を課し、関連する保存則を導く。
SGDが有限学習速度で行った数値軌道をよりよく近似する差分方程式である修正勾配流の導出に有限差分法からツールを適用します。
- 参考スコア(独自算出の注目度): 26.485269202381932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the dynamics of neural network parameters during training is
one of the key challenges in building a theoretical foundation for deep
learning. A central obstacle is that the motion of a network in
high-dimensional parameter space undergoes discrete finite steps along complex
stochastic gradients derived from real-world datasets. We circumvent this
obstacle through a unifying theoretical framework based on intrinsic symmetries
embedded in a network's architecture that are present for any dataset. We show
that any such symmetry imposes stringent geometric constraints on gradients and
Hessians, leading to an associated conservation law in the continuous-time
limit of stochastic gradient descent (SGD), akin to Noether's theorem in
physics. We further show that finite learning rates used in practice can
actually break these symmetry induced conservation laws. We apply tools from
finite difference methods to derive modified gradient flow, a differential
equation that better approximates the numerical trajectory taken by SGD at
finite learning rates. We combine modified gradient flow with our framework of
symmetries to derive exact integral expressions for the dynamics of certain
parameter combinations. We empirically validate our analytic expressions for
learning dynamics on VGG-16 trained on Tiny ImageNet. Overall, by exploiting
symmetry, our work demonstrates that we can analytically describe the learning
dynamics of various parameter combinations at finite learning rates and batch
sizes for state of the art architectures trained on any dataset.
- Abstract(参考訳): トレーニング中のニューラルネットワークパラメータのダイナミクスを理解することは、ディープラーニングの理論基盤を構築する上で重要な課題のひとつだ。
中心的な障害は、高次元パラメータ空間におけるネットワークの運動が、実世界のデータセットから導かれる複素確率勾配に沿って離散有限ステップを成すことである。
我々は、任意のデータセットに存在しているネットワークアーキテクチャに埋め込まれた本質的な対称性に基づく統一理論フレームワークによって、この障害を回避する。
そのような対称性が勾配とヘッセンに厳密な幾何学的制約を課すことを示し、ネーターの物理学の定理に類似した確率勾配降下(SGD)の連続時間極限における関連する保存則を導いた。
さらに, 有限学習速度は, この対称性誘導保存則を破ることができることを示した。
有限差分法を用いて,有限学習速度でのsgdによる数値軌道を近似する微分方程式である修正勾配流の導出を行う。
修正勾配流と対称性の枠組みを組み合わせることで、特定のパラメータの組み合わせの力学に対する正確な積分式を導出する。
我々は,Tiny ImageNetで訓練したVGG-16の動的学習のための解析式を実証的に検証した。
全体として、対称性を活用することで、任意のデータセットでトレーニングされたアートアーキテクチャの状態に対して、有限学習率とバッチサイズで様々なパラメータの組み合わせの学習ダイナミクスを解析的に記述できることを示す。
関連論文リスト
- Learning Layer-wise Equivariances Automatically using Gradients [66.81218780702125]
畳み込みは等価対称性をニューラルネットワークにエンコードし、より優れた一般化性能をもたらす。
対称性は、ネットワークが表現できる機能、事前に指定する必要、適応できない機能に対して、固定されたハード制約を提供する。
私たちのゴールは、勾配を使ってデータから自動的に学習できるフレキシブル対称性の制約を可能にすることです。
論文 参考訳(メタデータ) (2023-10-09T20:22:43Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - Oracle-Preserving Latent Flows [58.720142291102135]
我々はラベル付きデータセット全体にわたって複数の非自明な連続対称性を同時に発見するための方法論を開発する。
対称性変換と対応するジェネレータは、特別に構築された損失関数で訓練された完全連結ニューラルネットワークでモデル化される。
この研究における2つの新しい要素は、縮小次元の潜在空間の使用と、高次元のオラクルに関して不変な変換への一般化である。
論文 参考訳(メタデータ) (2023-02-02T00:13:32Z) - Designing Universal Causal Deep Learning Models: The Case of
Infinite-Dimensional Dynamical Systems from Stochastic Analysis [3.5450828190071655]
因果作用素(COs)は、現代の分析において中心的な役割を果たす。
COを近似できるディープラーニング(DL)モデルを設計するための標準的なフレームワークはまだ存在しない。
本稿では、DLモデル設計フレームワークを導入することにより、このオープンな問題に対する「幾何学的認識」ソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-24T14:43:03Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Imitating Deep Learning Dynamics via Locally Elastic Stochastic
Differential Equations [20.066631203802302]
本研究では, 深層学習における特徴の進化を, それぞれが学習サンプルに対応する微分方程式(SDE)を用いて研究する。
我々の結果は、ニューラルネットワークのトレーニング力学における局所弾性の決定的な役割に光を当てた。
論文 参考訳(メタデータ) (2021-10-11T17:17:20Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - Incorporating Symmetry into Deep Dynamics Models for Improved
Generalization [24.363954435050264]
本稿では,畳み込みニューラルネットワークに対称性を組み込むことにより,精度の向上と一般化を提案する。
我々のモデルは、対称性群変換による分布シフトに対して理論的かつ実験的に堅牢である。
画像やテキストアプリケーションと比較して、我々の研究は、高次元システムに同変ニューラルネットワークを適用するための重要なステップである。
論文 参考訳(メタデータ) (2020-02-08T01:28:17Z) - 'Place-cell' emergence and learning of invariant data with restricted
Boltzmann machines: breaking and dynamical restoration of continuous
symmetries in the weight space [0.0]
本稿では,表現学習のためのニューラルネットワークパラダイムである拘束ボルツマンマシン(RBM)の学習力学について検討する。
ネットワーク重みのランダムな構成から学習が進むにつれて、対称性を破る現象の存在が示される。
この対称性を破る現象は、トレーニングに利用できるデータの量がいくつかの臨界値を超える場合にのみ起こる。
論文 参考訳(メタデータ) (2019-12-30T14:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。