論文の概要: Can Training Dynamics of Scale-Invariant Neural Networks Be Explained by the Thermodynamics of an Ideal Gas?
- arxiv url: http://arxiv.org/abs/2511.07308v1
- Date: Mon, 10 Nov 2025 17:10:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.384906
- Title: Can Training Dynamics of Scale-Invariant Neural Networks Be Explained by the Thermodynamics of an Ideal Gas?
- Title(参考訳): スケール不変ニューラルネットワークのトレーニングダイナミクスは理想気体の熱力学によって説明できるか?
- Authors: Ildus Sadrtdinov, Ekaterina Lobacheva, Ivan Klimov, Mikhail I. Katsnelson, Dmitry Vetrov,
- Abstract要約: 本研究では,スケール不変ニューラルネットワークの重み減衰を伴う勾配降下(SGD)の定常分布を記述する枠組みを開発する。
定常エントロピーの挙動を含むフレームワークの重要な予測は,実験観測と密接に一致していることを示す。
- 参考スコア(独自算出の注目度): 4.565724079570854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the training dynamics of deep neural networks remains a major open problem, with physics-inspired approaches offering promising insights. Building on this perspective, we develop a thermodynamic framework to describe the stationary distributions of stochastic gradient descent (SGD) with weight decay for scale-invariant neural networks, a setting that both reflects practical architectures with normalization layers and permits theoretical analysis. We establish analogies between training hyperparameters (e.g., learning rate, weight decay) and thermodynamic variables such as temperature, pressure, and volume. Starting with a simplified isotropic noise model, we uncover a close correspondence between SGD dynamics and ideal gas behavior, validated through theory and simulation. Extending to training of neural networks, we show that key predictions of the framework, including the behavior of stationary entropy, align closely with experimental observations. This framework provides a principled foundation for interpreting training dynamics and may guide future work on hyperparameter tuning and the design of learning rate schedulers.
- Abstract(参考訳): 深層ニューラルネットワークのトレーニングダイナミクスを理解することは、物理学にインスパイアされたアプローチが有望な洞察を提供するなど、大きなオープンな問題である。
この観点から、我々は、スケール不変ニューラルネットワークの重み減衰を伴う確率勾配降下(SGD)の定常分布を記述するための熱力学的枠組みを構築し、どちらも正規化層を持つ実用的なアーキテクチャを反映し、理論的解析を可能にする。
トレーニングハイパーパラメータ(例えば,学習速度,重量減衰)と温度,圧力,体積などの熱力学的変数の類似性を確立する。
簡易な等方性雑音モデルから、SGD力学と理想気体挙動の密接な対応を解明し、理論とシミュレーションにより検証した。
ニューラルネットワークのトレーニングの拡張により、定常エントロピーの挙動を含むフレームワークの重要な予測が実験的な観測と密接に一致していることが示される。
このフレームワークは、トレーニングダイナミクスを解釈するための原則的な基盤を提供し、ハイパーパラメータチューニングと学習率スケジューラの設計に関する今後の研究をガイドすることができる。
関連論文リスト
- On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models [54.61810451777578]
エントロピーは、大きな言語モデルによって生成される出力の多様性を測定するための重要な指標となる。
近年の研究では、強化微調整における探究と利用のバランスを改善するために、エントロピーの監視と調整に重点を置いている。
論文 参考訳(メタデータ) (2026-02-03T11:14:58Z) - Langevin Flows for Modeling Neural Latent Dynamics [81.81271685018284]
逐次変分自動エンコーダであるLangevinFlowを導入し、潜伏変数の時間的進化をアンダーダム化したLangevin方程式で制御する。
われわれのアプローチは、慣性、減衰、学習されたポテンシャル関数、力などの物理的事前を組み込んで、ニューラルネットワークにおける自律的および非自律的プロセスの両方を表現する。
本手法は,ロレンツ誘引器によって生成される合成神経集団に対する最先端のベースラインより優れる。
論文 参考訳(メタデータ) (2025-07-15T17:57:48Z) - High-order expansion of Neural Ordinary Differential Equations flows [4.4569182855550755]
イベントグラデーション上のニューラルODEダイナミクスの厳密な数学的記述を提供する高階微分に基づくフレームワークであるイベントトランジションを紹介する。
本研究は,イベントトリガー型ニューラルディファレンス方程式のより深い理論的基礎と,複雑なシステム力学を説明する数学的構造に寄与する。
論文 参考訳(メタデータ) (2025-04-02T08:57:34Z) - Allostatic Control of Persistent States in Spiking Neural Networks for perception and computation [79.16635054977068]
本稿では,アロスタシスの概念を内部表現の制御に拡張することにより,環境に対する知覚的信念を更新するための新しいモデルを提案する。
本稿では,アトラクタネットワークにおける活動の急増を空間的数値表現として利用する数値認識の応用に焦点を当てる。
論文 参考訳(メタデータ) (2025-03-20T12:28:08Z) - Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間列を表現するために設計された新しい深部力学モデルを提案する。
マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。
振動系, ビデオ, 実世界の状態系列(MuJoCo)の実験結果から, 学習可能なエネルギーベース先行モデルの方が既存のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-09-05T18:14:22Z) - Dynamical stability and chaos in artificial neural network trajectories along training [3.379574469735166]
浅いニューラルネットワークのネットワーク軌跡をこのレンズを通して解析することにより,このプロセスの動的特性について検討する。
我々は,学習率の仕組みによって,規則的かつカオス的な行動のヒントを見いだす。
この研究は、力学系理論、ネットワーク理論、機械学習のアイデアの交叉受精にも貢献している。
論文 参考訳(メタデータ) (2024-04-08T17:33:11Z) - Gibbs-Duhem-Informed Neural Networks for Binary Activity Coefficient
Prediction [45.84205238554709]
本稿では,Gibs-Duhem-informed Neural Network を用いて,様々な組成における二成分活性係数の予測を行う。
ニューラルネットワークの学習における損失関数にギブス・デュヘム方程式を明示的に含んでいる。
論文 参考訳(メタデータ) (2023-05-31T07:36:45Z) - Constraining Chaos: Enforcing dynamical invariants in the training of
recurrent neural networks [0.0]
本稿では,カオス力学系に対する機械学習に基づく予測手法の新しいトレーニング手法を提案する。
この訓練は、リヤプノフ指数スペクトルやフラクタル次元のような動的不変量を適用し、限られたデータで操作する場合、より長くより安定した予測を可能にする。
論文 参考訳(メタデータ) (2023-04-24T00:33:47Z) - Identifying Equivalent Training Dynamics [3.793387630509845]
共役および非共役のトレーニングダイナミクスを識別するフレームワークを開発する。
クープマン作用素理論の進歩を利用して、クープマン固有値を比較することで、オンラインミラー降下とオンライン勾配降下の既知同値を正しく同定できることを実証する。
a)浅層ニューラルネットワークと広層ニューラルネットワークの間の非共役トレーニングダイナミクスの同定、(b)畳み込みニューラルネットワークにおけるトレーニングダイナミクスの初期段階の特徴付け、(c)グルーキングを行わないトランスフォーマーにおける非共役トレーニングダイナミクスの発見。
論文 参考訳(メタデータ) (2023-02-17T22:15:20Z) - ConCerNet: A Contrastive Learning Based Framework for Automated
Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。
本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-11T21:07:30Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - Physics-guided Deep Markov Models for Learning Nonlinear Dynamical
Systems with Uncertainty [6.151348127802708]
我々は物理誘導型Deep Markov Model(PgDMM)という物理誘導型フレームワークを提案する。
提案手法は,動的システムの駆動物理を維持しながら,ディープラーニングの表現力を利用する。
論文 参考訳(メタデータ) (2021-10-16T16:35:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。