論文の概要: Spherical Motion Dynamics: Learning Dynamics of Neural Network with
Normalization, Weight Decay, and SGD
- arxiv url: http://arxiv.org/abs/2006.08419v4
- Date: Fri, 27 Nov 2020 06:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 02:31:47.569779
- Title: Spherical Motion Dynamics: Learning Dynamics of Neural Network with
Normalization, Weight Decay, and SGD
- Title(参考訳): 球運動ダイナミクス:正規化、重減少、SGDによるニューラルネットワークの学習ダイナミクス
- Authors: Ruosi Wan, Zhanxing Zhu, Xiangyu Zhang, Jian Sun
- Abstract要約: SMD (Spherical Motion Dynamics) と名付けられた, 正規化, 重崩壊 (WD) , SGD (運動量) を伴うニューラルネットワークの学習力学について述べる。
我々は,ImageNet や MSCOCO など様々なコンピュータビジョンタスクにおける仮定と理論的結果を標準設定で検証する。
- 参考スコア(独自算出の注目度): 105.99301967452334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we comprehensively reveal the learning dynamics of neural
network with normalization, weight decay (WD), and SGD (with momentum), named
as Spherical Motion Dynamics (SMD). Most related works study SMD by focusing on
"effective learning rate" in "equilibrium" condition, where weight norm remains
unchanged. However, their discussions on why equilibrium condition can be
reached in SMD is either absent or less convincing. Our work investigates SMD
by directly exploring the cause of equilibrium condition. Specifically, 1) we
introduce the assumptions that can lead to equilibrium condition in SMD, and
prove that weight norm can converge at linear rate with given assumptions; 2)
we propose "angular update" as a substitute for effective learning rate to
measure the evolving of neural network in SMD, and prove angular update can
also converge to its theoretical value at linear rate; 3) we verify our
assumptions and theoretical results on various computer vision tasks including
ImageNet and MSCOCO with standard settings. Experiment results show our
theoretical findings agree well with empirical observations.
- Abstract(参考訳): 本研究では、ニューラルネットワークの正規化、重崩壊(WD)、SGD(運動量)による学習のダイナミクスを包括的に明らかにし、Spherical Motion Dynamics (SMD) と名付けた。
ほとんどの関連研究は、ウェイトノルムが変化しない「平衡」条件における「効果的な学習率」に焦点を当ててSMDを研究する。
しかし、なぜSMDで平衡状態に到達できるかという彼らの議論は、欠如しているか、より説得力がない。
本研究は平衡状態の原因を直接調査することでsmdを調査する。
具体的には
1) SMDにおける平衡状態につながる仮定を導入し, 重みノルムが与えられた仮定と線形速度で収束できることを証明する。
2) SMDにおけるニューラルネットワークの進化を測定するために, 効果的な学習率の代替として「角更新」を提案し, 角更新が線形速度で理論値に収束することを示す。
3)ImageNet や MSCOCO など様々なコンピュータビジョンタスクにおける仮定と理論的結果の検証を行う。
実験結果から, 理論的結果は経験的観察とよく一致した。
関連論文リスト
- Towards a theory of learning dynamics in deep state space models [12.262490032020832]
状態空間モデル(SSM)は多くの長いシーケンスモデリングタスクにおいて顕著な経験的性能を示した。
この研究は、ディープステート空間モデルにおける動的学習の理論への一歩である。
論文 参考訳(メタデータ) (2024-07-10T00:01:56Z) - A Multi-Grained Symmetric Differential Equation Model for Learning Protein-Ligand Binding Dynamics [73.35846234413611]
薬物発見において、分子動力学(MD)シミュレーションは、結合親和性を予測し、輸送特性を推定し、ポケットサイトを探索する強力なツールを提供する。
我々は,数値MDを容易にし,タンパク質-リガンド結合ダイナミクスの正確なシミュレーションを提供する,最初の機械学習サロゲートであるNeuralMDを提案する。
従来の数値MDシミュレーションと比較して1K$times$ Speedupを実現することにより,NeuralMDの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-01-26T09:35:17Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks [33.88586668321127]
本研究は,ディープニューラルネットワークにおける個々のニューロンの更新挙動に重み劣化が及ぼす影響について検討する。
本研究では, 回転を明示的に制御することで, 重量減衰の利点が得られ, 学習率のウォームアップを著しく低減できることを示した。
論文 参考訳(メタデータ) (2023-05-26T19:14:01Z) - Learning Neural Constitutive Laws From Motion Observations for
Generalizable PDE Dynamics [97.38308257547186]
多くのNNアプローチは、支配的PDEと物質モデルの両方を暗黙的にモデル化するエンドツーエンドモデルを学ぶ。
PDEの管理はよく知られており、学習よりも明示的に実施されるべきである、と私たちは主張する。
そこで我々は,ネットワークアーキテクチャを利用したニューラル構成則(Neural Constitutive Laws,NCLaw)と呼ばれる新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-04-27T17:42:24Z) - Learning Physical Dynamics with Subequivariant Graph Neural Networks [99.41677381754678]
グラフニューラルネットワーク(GNN)は、物理力学を学習するための一般的なツールとなっている。
物理法則は、モデル一般化に必須な帰納バイアスである対称性に従属する。
本モデルは,RigidFall上でのPhysylonと2倍低ロールアウトMSEの8つのシナリオにおいて,平均3%以上の接触予測精度の向上を実現している。
論文 参考訳(メタデータ) (2022-10-13T10:00:30Z) - To update or not to update? Neurons at equilibrium in deep models [8.72305226979945]
近年の深層学習の進歩は, 完全学習モデルにおけるアポテリオリ情報によって, パラメータのサブセットを単に訓練することで, 同一の性能に適合できることを示した。
本研究では、単一パラメータからニューロン全体の挙動に焦点を移し、ニューロン平衡(NEq)の概念を活用する。
提案手法は、NEqを検証し、神経平衡が特定の学習設定に依存することを観察し、様々な最先端の学習戦略とタスクで検証されている。
論文 参考訳(メタデータ) (2022-07-19T08:07:53Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Incorporating Symmetry into Deep Dynamics Models for Improved
Generalization [24.363954435050264]
本稿では,畳み込みニューラルネットワークに対称性を組み込むことにより,精度の向上と一般化を提案する。
我々のモデルは、対称性群変換による分布シフトに対して理論的かつ実験的に堅牢である。
画像やテキストアプリケーションと比較して、我々の研究は、高次元システムに同変ニューラルネットワークを適用するための重要なステップである。
論文 参考訳(メタデータ) (2020-02-08T01:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。