論文の概要: SGD as Free Energy Minimization: A Thermodynamic View on Neural Network Training
- arxiv url: http://arxiv.org/abs/2505.23489v1
- Date: Thu, 29 May 2025 14:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.905308
- Title: SGD as Free Energy Minimization: A Thermodynamic View on Neural Network Training
- Title(参考訳): 自由エネルギー最小化としてのSGD : ニューラルネットワークトレーニングの熱力学的視点
- Authors: Ildus Sadrtdinov, Ivan Klimov, Ekaterina Lobacheva, Dmitry Vetrov,
- Abstract要約: 勾配降下は自由エネルギー関数$F=U-TS$を暗黙的に最小化し、トレーニング損失$U$と重み分布のエントロピー$S$のバランスをとることを示した。
この視点は、なぜ高い学習率がトレーニングが損失最小値に収束することを妨げているのか、新しいレンズを提供する。
- 参考スコア(独自算出の注目度): 3.217380854543918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a thermodynamic interpretation of the stationary behavior of stochastic gradient descent (SGD) under fixed learning rates (LRs) in neural network training. We show that SGD implicitly minimizes a free energy function $F=U-TS$, balancing training loss $U$ and the entropy of the weights distribution $S$, with temperature $T$ determined by the LR. This perspective offers a new lens on why high LRs prevent training from converging to the loss minima and how different LRs lead to stabilization at different loss levels. We empirically validate the free energy framework on both underparameterized (UP) and overparameterized (OP) models. UP models consistently follow free energy minimization, with temperature increasing monotonically with LR, while for OP models, the temperature effectively drops to zero at low LRs, causing SGD to minimize the loss directly and converge to an optimum. We attribute this mismatch to differences in the signal-to-noise ratio of stochastic gradients near optima, supported by both a toy example and neural network experiments.
- Abstract(参考訳): 本稿では、ニューラルネットワークトレーニングにおいて、一定の学習率(LR)の下での確率勾配降下(SGD)の定常挙動を熱力学的に解釈する。
その結果,SGD は自由エネルギー関数 $F=U-TS$ を暗黙的に最小化し,トレーニング損失 $U$ と重み分布のエントロピー $S$ と LR によって決定される温度 $T$ とをバランスさせることを示した。
この視点は、高いLRが損失最小値にトレーニングが収束するのを妨げている理由と、異なるLRが異なる損失レベルの安定化にどのように寄与するかについて、新しいレンズを提供する。
我々は、自由エネルギーの枠組みを、過パラメータ化(UP)モデルと過パラメータ化(OP)モデルの両方で実証的に検証する。
UPモデルは常に自由エネルギーの最小化に従っており、温度はLRと単調に上昇する一方、OPモデルでは温度は低いLRでゼロに低下し、SGDは損失を直接最小化し、最適に収束する。
このミスマッチは、オプティマ付近の確率勾配の信号-雑音比の違いによるもので、おもちゃの例とニューラルネットワークの実験の両方が支持している。
関連論文リスト
- Scaling Law with Learning Rate Annealing [4.121865876406014]
ニューラルネットワークモデルのクロスエントロピー損失曲線は、学習速度(LR)がトレーニングステップを上回り、スケーリング法則に準拠している。
LRアニールによるスケーリング法則の適用により、学習速度(LRS)の任意のステップにおける損失を正確に予測することができる。
論文 参考訳(メタデータ) (2024-08-20T17:30:48Z) - Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。
また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文 参考訳(メタデータ) (2023-12-01T05:38:17Z) - A Theoretical Explanation of Activation Sparsity through Flat Minima and
Adversarial Robustness [29.87592869483743]
ブロック内でのアクティベーション間隔の最近の経験的観察は、自由な計算コストを大幅に削減する機会を提供する。
本稿では、活性化空間の1つの源としての空間性の概念とそれに基づく理論的説明を提案する。
論文 参考訳(メタデータ) (2023-09-06T13:48:40Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z) - Distilled Low Rank Neural Radiance Field with Quantization for Light
Field Compression [33.08737425706558]
本稿では,光場圧縮作業のための量子希薄ニューラルネットワーク(QDLR-NeRF)表現を提案する。
提案手法は,視野合成が可能なニューラルラジアンス場(NeRF)の形で暗黙的なシーン表現を学習する。
実験結果から,提案手法は最先端手法と比較して圧縮効率がよいことがわかった。
論文 参考訳(メタデータ) (2022-07-30T08:19:29Z) - Cycle-Interactive Generative Adversarial Network for Robust Unsupervised
Low-Light Enhancement [109.335317310485]
CIGAN(Cycle-Interactive Generative Adversarial Network)は、低照度画像間の照明分布の転送を改善できるだけでなく、詳細な信号も操作できる。
特に、提案した低照度誘導変換は、低照度GAN生成器から劣化GAN生成器へ、低照度画像の特徴をフォワードする。
論文 参考訳(メタデータ) (2022-07-03T06:37:46Z) - KL-Entropy-Regularized RL with a Generative Model is Minimax Optimal [70.15267479220691]
モデル強化学習のサンプル複雑性を,生成的分散自由モデルを用いて検討・解析する。
我々の分析は、$varepsilon$が十分小さい場合、$varepsilon$-optimal Policyを見つけるのが、ほぼ最小の最適化であることを示している。
論文 参考訳(メタデータ) (2022-05-27T19:39:24Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Optimal Variance Control of the Score Function Gradient Estimator for
Importance Weighted Bounds [12.75471887147565]
本稿では,重要重み付き変動境界(IWAE)のスコア関数勾配推定器の新しい結果を紹介する。
我々は、大きな$K$の極限において、推定子のSignal-to-Noise比(SNR)が$sqrtK$として大きくなるように制御変数を選択することができることを証明した。
論文 参考訳(メタデータ) (2020-08-05T08:41:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。