論文の概要: Machine learning in and out of equilibrium
- arxiv url: http://arxiv.org/abs/2306.03521v1
- Date: Tue, 6 Jun 2023 09:12:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 16:23:13.885945
- Title: Machine learning in and out of equilibrium
- Title(参考訳): 均衡内外における機械学習
- Authors: Shishir Adhikari, Alkan Kabak\c{c}{\i}o\u{g}lu, Alexander Strang,
Deniz Yuret, Michael Hinczewski
- Abstract要約: 我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
- 参考スコア(独自算出の注目度): 58.88325379746631
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The algorithms used to train neural networks, like stochastic gradient
descent (SGD), have close parallels to natural processes that navigate a
high-dimensional parameter space -- for example protein folding or evolution.
Our study uses a Fokker-Planck approach, adapted from statistical physics, to
explore these parallels in a single, unified framework. We focus in particular
on the stationary state of the system in the long-time limit, which in
conventional SGD is out of equilibrium, exhibiting persistent currents in the
space of network parameters. As in its physical analogues, the current is
associated with an entropy production rate for any given training trajectory.
The stationary distribution of these rates obeys the integral and detailed
fluctuation theorems -- nonequilibrium generalizations of the second law of
thermodynamics. We validate these relations in two numerical examples, a
nonlinear regression network and MNIST digit classification. While the
fluctuation theorems are universal, there are other aspects of the stationary
state that are highly sensitive to the training details. Surprisingly, the
effective loss landscape and diffusion matrix that determine the shape of the
stationary distribution vary depending on the simple choice of minibatching
done with or without replacement. We can take advantage of this nonequilibrium
sensitivity to engineer an equilibrium stationary state for a particular
application: sampling from a posterior distribution of network weights in
Bayesian machine learning. We propose a new variation of stochastic gradient
Langevin dynamics (SGLD) that harnesses without replacement minibatching. In an
example system where the posterior is exactly known, this SGWORLD algorithm
outperforms SGLD, converging to the posterior orders of magnitude faster as a
function of the learning rate.
- Abstract(参考訳): 確率勾配降下(SGD)のようなニューラルネットワークのトレーニングに使われるアルゴリズムは、タンパク質の折り畳みや進化など、高次元のパラメータ空間をナビゲートする自然なプロセスと類似している。
本研究では,統計物理学を応用したfokker-planckアプローチを用いて,これらの並列を単一統一的な枠組みで探索する。
我々は特に,従来のSGDでは平衡が切れており,ネットワークパラメータの空間に持続的な電流が現れる長期的限界におけるシステムの定常状態に着目した。
物理的類似物と同様に、電流は任意の訓練軌道のエントロピー生成率と関連している。
これらの速度の定常分布は積分的かつ詳細なゆらぎ定理(熱力学の第2法則の非平衡一般化)に従う。
この関係を非線形回帰ネットワークとMNIST桁分類という2つの数値例で検証する。
ゆらぎの定理は普遍的であるが、静止状態の他の側面は訓練の詳細に非常に敏感である。
驚くべきことに、定常分布の形状を決定する効果的な損失景観と拡散行列は、置換の有無にかかわらず、単純な選択によって異なる。
この非平衡感度を利用して、特定の応用のための平衡定常状態(ベイズ機械学習におけるネットワーク重みの後方分布からのサンプリング)を構築することができる。
本稿では,代替ミニバッチングを伴わない確率勾配ランジュバンダイナミクス(sgld)の新たなバリエーションを提案する。
このSGWORLDアルゴリズムは、後部が正確に知られている例として、SGLDよりも優れており、学習速度の関数として、後部順序が桁違いに速く収束する。
関連論文リスト
- Law of Balance and Stationary Distribution of Stochastic Gradient
Descent [11.937085301750288]
我々は、損失関数が再スケーリング対称性を含む場合、勾配降下(SGD)のミニバッチノイズが平衡解に対する解を正則化することを証明した。
次に、任意の深さと幅を持つ対角線ネットワークの勾配流の定常分布を導出する。
これらの現象はディープ・ネットワークに独自に存在することが示され、ディープ・モデルと浅瀬モデルの間に根本的な違いが示唆される。
論文 参考訳(メタデータ) (2023-08-13T03:13:03Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Learning Neural Constitutive Laws From Motion Observations for
Generalizable PDE Dynamics [97.38308257547186]
多くのNNアプローチは、支配的PDEと物質モデルの両方を暗黙的にモデル化するエンドツーエンドモデルを学ぶ。
PDEの管理はよく知られており、学習よりも明示的に実施されるべきである、と私たちは主張する。
そこで我々は,ネットワークアーキテクチャを利用したニューラル構成則(Neural Constitutive Laws,NCLaw)と呼ばれる新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-04-27T17:42:24Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Evolutionary Echo State Network: evolving reservoirs in the Fourier
space [1.7658686315825685]
エコー状態ネットワーク(英語: Echo State Network, ESN)は、多数の隠れ隠れ重みを持つリカレントニューラルネットワークのクラスである(いわゆる貯水池)。
本研究では、フーリエ空間の貯水量を表すESN型の新しい計算モデルを提案し、周波数領域に遺伝的アルゴリズムを適用することで、これらの重みを微調整する。
論文 参考訳(メタデータ) (2022-06-10T08:59:40Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Variational Inference for Continuous-Time Switching Dynamical Systems [29.984955043675157]
従属拡散過程を変調したマルコフジャンプ過程に基づくモデルを提案する。
我々は,新しい連続時間変動推定アルゴリズムを開発した。
モデル仮定と実世界の実例に基づいて,我々のアルゴリズムを広範囲に評価する。
論文 参考訳(メタデータ) (2021-09-29T15:19:51Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。