論文の概要: Can Training Dynamics of Scale-Invariant Neural Networks Be Explained by the Thermodynamics of an Ideal Gas?
- arxiv url: http://arxiv.org/abs/2511.07308v1
- Date: Mon, 10 Nov 2025 17:10:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.384906
- Title: Can Training Dynamics of Scale-Invariant Neural Networks Be Explained by the Thermodynamics of an Ideal Gas?
- Title(参考訳): スケール不変ニューラルネットワークのトレーニングダイナミクスは理想気体の熱力学によって説明できるか?
- Authors: Ildus Sadrtdinov, Ekaterina Lobacheva, Ivan Klimov, Mikhail I. Katsnelson, Dmitry Vetrov,
- Abstract要約: 本研究では,スケール不変ニューラルネットワークの重み減衰を伴う勾配降下(SGD)の定常分布を記述する枠組みを開発する。
定常エントロピーの挙動を含むフレームワークの重要な予測は,実験観測と密接に一致していることを示す。
- 参考スコア(独自算出の注目度): 4.565724079570854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the training dynamics of deep neural networks remains a major open problem, with physics-inspired approaches offering promising insights. Building on this perspective, we develop a thermodynamic framework to describe the stationary distributions of stochastic gradient descent (SGD) with weight decay for scale-invariant neural networks, a setting that both reflects practical architectures with normalization layers and permits theoretical analysis. We establish analogies between training hyperparameters (e.g., learning rate, weight decay) and thermodynamic variables such as temperature, pressure, and volume. Starting with a simplified isotropic noise model, we uncover a close correspondence between SGD dynamics and ideal gas behavior, validated through theory and simulation. Extending to training of neural networks, we show that key predictions of the framework, including the behavior of stationary entropy, align closely with experimental observations. This framework provides a principled foundation for interpreting training dynamics and may guide future work on hyperparameter tuning and the design of learning rate schedulers.
- Abstract(参考訳): 深層ニューラルネットワークのトレーニングダイナミクスを理解することは、物理学にインスパイアされたアプローチが有望な洞察を提供するなど、大きなオープンな問題である。
この観点から、我々は、スケール不変ニューラルネットワークの重み減衰を伴う確率勾配降下(SGD)の定常分布を記述するための熱力学的枠組みを構築し、どちらも正規化層を持つ実用的なアーキテクチャを反映し、理論的解析を可能にする。
トレーニングハイパーパラメータ(例えば,学習速度,重量減衰)と温度,圧力,体積などの熱力学的変数の類似性を確立する。
簡易な等方性雑音モデルから、SGD力学と理想気体挙動の密接な対応を解明し、理論とシミュレーションにより検証した。
ニューラルネットワークのトレーニングの拡張により、定常エントロピーの挙動を含むフレームワークの重要な予測が実験的な観測と密接に一致していることが示される。
このフレームワークは、トレーニングダイナミクスを解釈するための原則的な基盤を提供し、ハイパーパラメータチューニングと学習率スケジューラの設計に関する今後の研究をガイドすることができる。
関連論文リスト
- High-order expansion of Neural Ordinary Differential Equations flows [4.4569182855550755]
イベントグラデーション上のニューラルODEダイナミクスの厳密な数学的記述を提供する高階微分に基づくフレームワークであるイベントトランジションを紹介する。
本研究は,イベントトリガー型ニューラルディファレンス方程式のより深い理論的基礎と,複雑なシステム力学を説明する数学的構造に寄与する。
論文 参考訳(メタデータ) (2025-04-02T08:57:34Z) - Gibbs-Duhem-Informed Neural Networks for Binary Activity Coefficient
Prediction [45.84205238554709]
本稿では,Gibs-Duhem-informed Neural Network を用いて,様々な組成における二成分活性係数の予測を行う。
ニューラルネットワークの学習における損失関数にギブス・デュヘム方程式を明示的に含んでいる。
論文 参考訳(メタデータ) (2023-05-31T07:36:45Z) - Constraining Chaos: Enforcing dynamical invariants in the training of
recurrent neural networks [0.0]
本稿では,カオス力学系に対する機械学習に基づく予測手法の新しいトレーニング手法を提案する。
この訓練は、リヤプノフ指数スペクトルやフラクタル次元のような動的不変量を適用し、限られたデータで操作する場合、より長くより安定した予測を可能にする。
論文 参考訳(メタデータ) (2023-04-24T00:33:47Z) - Identifying Equivalent Training Dynamics [3.793387630509845]
共役および非共役のトレーニングダイナミクスを識別するフレームワークを開発する。
クープマン作用素理論の進歩を利用して、クープマン固有値を比較することで、オンラインミラー降下とオンライン勾配降下の既知同値を正しく同定できることを実証する。
a)浅層ニューラルネットワークと広層ニューラルネットワークの間の非共役トレーニングダイナミクスの同定、(b)畳み込みニューラルネットワークにおけるトレーニングダイナミクスの初期段階の特徴付け、(c)グルーキングを行わないトランスフォーマーにおける非共役トレーニングダイナミクスの発見。
論文 参考訳(メタデータ) (2023-02-17T22:15:20Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - Physics-guided Deep Markov Models for Learning Nonlinear Dynamical
Systems with Uncertainty [6.151348127802708]
我々は物理誘導型Deep Markov Model(PgDMM)という物理誘導型フレームワークを提案する。
提案手法は,動的システムの駆動物理を維持しながら,ディープラーニングの表現力を利用する。
論文 参考訳(メタデータ) (2021-10-16T16:35:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。