論文の概要: Spherical Motion Dynamics: Learning Dynamics of Neural Network with
Normalization, Weight Decay, and SGD
- arxiv url: http://arxiv.org/abs/2006.08419v4
- Date: Fri, 27 Nov 2020 06:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 02:31:47.569779
- Title: Spherical Motion Dynamics: Learning Dynamics of Neural Network with
Normalization, Weight Decay, and SGD
- Title(参考訳): 球運動ダイナミクス:正規化、重減少、SGDによるニューラルネットワークの学習ダイナミクス
- Authors: Ruosi Wan, Zhanxing Zhu, Xiangyu Zhang, Jian Sun
- Abstract要約: SMD (Spherical Motion Dynamics) と名付けられた, 正規化, 重崩壊 (WD) , SGD (運動量) を伴うニューラルネットワークの学習力学について述べる。
我々は,ImageNet や MSCOCO など様々なコンピュータビジョンタスクにおける仮定と理論的結果を標準設定で検証する。
- 参考スコア(独自算出の注目度): 105.99301967452334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we comprehensively reveal the learning dynamics of neural
network with normalization, weight decay (WD), and SGD (with momentum), named
as Spherical Motion Dynamics (SMD). Most related works study SMD by focusing on
"effective learning rate" in "equilibrium" condition, where weight norm remains
unchanged. However, their discussions on why equilibrium condition can be
reached in SMD is either absent or less convincing. Our work investigates SMD
by directly exploring the cause of equilibrium condition. Specifically, 1) we
introduce the assumptions that can lead to equilibrium condition in SMD, and
prove that weight norm can converge at linear rate with given assumptions; 2)
we propose "angular update" as a substitute for effective learning rate to
measure the evolving of neural network in SMD, and prove angular update can
also converge to its theoretical value at linear rate; 3) we verify our
assumptions and theoretical results on various computer vision tasks including
ImageNet and MSCOCO with standard settings. Experiment results show our
theoretical findings agree well with empirical observations.
- Abstract(参考訳): 本研究では、ニューラルネットワークの正規化、重崩壊(WD)、SGD(運動量)による学習のダイナミクスを包括的に明らかにし、Spherical Motion Dynamics (SMD) と名付けた。
ほとんどの関連研究は、ウェイトノルムが変化しない「平衡」条件における「効果的な学習率」に焦点を当ててSMDを研究する。
しかし、なぜSMDで平衡状態に到達できるかという彼らの議論は、欠如しているか、より説得力がない。
本研究は平衡状態の原因を直接調査することでsmdを調査する。
具体的には
1) SMDにおける平衡状態につながる仮定を導入し, 重みノルムが与えられた仮定と線形速度で収束できることを証明する。
2) SMDにおけるニューラルネットワークの進化を測定するために, 効果的な学習率の代替として「角更新」を提案し, 角更新が線形速度で理論値に収束することを示す。
3)ImageNet や MSCOCO など様々なコンピュータビジョンタスクにおける仮定と理論的結果の検証を行う。
実験結果から, 理論的結果は経験的観察とよく一致した。
関連論文リスト
- Score dynamics: scaling molecular dynamics with picoseconds timestep via
conditional diffusion model [5.39025059364831]
分子動力学シミュレーションから大きな時間ステップを持つ加速進化演算子を学習するためのフレームワークであるスコアダイナミクス(SD)を提案する。
我々は10psの時間ステップで進化した現実的な分子系のグラフニューラルネットワークに基づくスコアダイナミクスモデルを構築した。
現在のSD実装は,本研究で研究したシステムに対して,MDよりも約2桁高速である。
論文 参考訳(メタデータ) (2023-10-02T22:29:45Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Rotational Equilibrium: How Weight Decay Balances Learning Across Neural
Networks [38.08431828419127]
本研究は,ディープニューラルネットワークにおける個々のニューロンの更新挙動に重み劣化が及ぼす影響について検討する。
本研究では, 回転を明示的に制御することで, 重量減衰の利点が得られ, 学習率のウォームアップを著しく低減できることを示した。
論文 参考訳(メタデータ) (2023-05-26T19:14:01Z) - Learning Neural Constitutive Laws From Motion Observations for
Generalizable PDE Dynamics [97.38308257547186]
多くのNNアプローチは、支配的PDEと物質モデルの両方を暗黙的にモデル化するエンドツーエンドモデルを学ぶ。
PDEの管理はよく知られており、学習よりも明示的に実施されるべきである、と私たちは主張する。
そこで我々は,ネットワークアーキテクチャを利用したニューラル構成則(Neural Constitutive Laws,NCLaw)と呼ばれる新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-04-27T17:42:24Z) - Learning Physical Dynamics with Subequivariant Graph Neural Networks [99.41677381754678]
グラフニューラルネットワーク(GNN)は、物理力学を学習するための一般的なツールとなっている。
物理法則は、モデル一般化に必須な帰納バイアスである対称性に従属する。
本モデルは,RigidFall上でのPhysylonと2倍低ロールアウトMSEの8つのシナリオにおいて,平均3%以上の接触予測精度の向上を実現している。
論文 参考訳(メタデータ) (2022-10-13T10:00:30Z) - To update or not to update? Neurons at equilibrium in deep models [8.72305226979945]
近年の深層学習の進歩は, 完全学習モデルにおけるアポテリオリ情報によって, パラメータのサブセットを単に訓練することで, 同一の性能に適合できることを示した。
本研究では、単一パラメータからニューロン全体の挙動に焦点を移し、ニューロン平衡(NEq)の概念を活用する。
提案手法は、NEqを検証し、神経平衡が特定の学習設定に依存することを観察し、様々な最先端の学習戦略とタスクで検証されている。
論文 参考訳(メタデータ) (2022-07-19T08:07:53Z) - Equilibrium Propagation with Continual Weight Updates [69.87491240509485]
時間によるバックプロパゲーション(BPTT)と密接に一致する勾配を計算し、機械学習と神経科学を橋渡しする学習アルゴリズムを提案する。
理論的には、学習速度が十分に小さい場合、第2相の各段階において、BPTTが与える損失の勾配に従ってニューロンとシナプスのダイナミクスが従うことを証明している。
これらの結果からEPは,後方伝播との親密な関係を維持しつつ,ハードウェアの制約に順応し,生物学に一歩近づいた。
論文 参考訳(メタデータ) (2020-04-29T14:54:30Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Incorporating Symmetry into Deep Dynamics Models for Improved
Generalization [24.363954435050264]
本稿では,畳み込みニューラルネットワークに対称性を組み込むことにより,精度の向上と一般化を提案する。
我々のモデルは、対称性群変換による分布シフトに対して理論的かつ実験的に堅牢である。
画像やテキストアプリケーションと比較して、我々の研究は、高次元システムに同変ニューラルネットワークを適用するための重要なステップである。
論文 参考訳(メタデータ) (2020-02-08T01:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。