論文の概要: A mean-field theory of lazy training in two-layer neural nets: entropic
regularization and controlled McKean-Vlasov dynamics
- arxiv url: http://arxiv.org/abs/2002.01987v3
- Date: Mon, 23 Mar 2020 21:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 21:21:06.879836
- Title: A mean-field theory of lazy training in two-layer neural nets: entropic
regularization and controlled McKean-Vlasov dynamics
- Title(参考訳): 2層ニューラルネットにおける平均場学習理論:エントロピー正則化とマッキーン・ブラソフダイナミクスの制御
- Authors: Belinda Tzen and Maxim Raginsky
- Abstract要約: 我々は「ほぼガウス的」なランダム重みを持つ2層ニューラルネットによる関数の普遍近似の問題を考える。
この問題は、勾配降下によって生じる重み付けがi.i.d.から良好に動かない遅延訓練の最近の研究によって動機づけられている。
我々は,重みに対する確率測度空間上の自由エネルギー関数のグローバル最小化として,この問題を表現できることを示した。
- 参考スコア(独自算出の注目度): 12.754502898545555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of universal approximation of functions by two-layer
neural nets with random weights that are "nearly Gaussian" in the sense of
Kullback-Leibler divergence. This problem is motivated by recent works on lazy
training, where the weight updates generated by stochastic gradient descent do
not move appreciably from the i.i.d. Gaussian initialization. We first consider
the mean-field limit, where the finite population of neurons in the hidden
layer is replaced by a continual ensemble, and show that our problem can be
phrased as global minimization of a free-energy functional on the space of
probability measures over the weights. This functional trades off the $L^2$
approximation risk against the KL divergence with respect to a centered
Gaussian prior. We characterize the unique global minimizer and then construct
a controlled nonlinear dynamics in the space of probability measures over
weights that solves a McKean--Vlasov optimal control problem. This control
problem is closely related to the Schr\"odinger bridge (or entropic optimal
transport) problem, and its value is proportional to the minimum of the free
energy. Finally, we show that SGD in the lazy training regime (which can be
ensured by jointly tuning the variance of the Gaussian prior and the entropic
regularization parameter) serves as a greedy approximation to the optimal
McKean--Vlasov distributional dynamics and provide quantitative guarantees on
the $L^2$ approximation error.
- Abstract(参考訳): クルバック・リーブラーの発散という意味では、「ほぼガウス的」なランダム重みを持つ2層ニューラルネットワークによる関数の普遍近似の問題を考える。
この問題は、確率勾配降下によって生じる重み付けがガウス初期化から順応的に動かない遅延学習の最近の研究によって動機づけられている。
まず,隠れた層内のニューロンの有限個数が連続的なアンサンブルに置き換えられる平均場限界を考察し,本問題を重み付け上の確率測度の空間上の自由エネルギー汎関数の大域的最小化として表現できることを示した。
この関数はKLの発散に対する$L^2$近似リスクをガウスの先行中心に対して引き離す。
We characterize the unique global minimizer and then construct a controlled nonlinear dynamics in the space of probability measures over weights that solves a McKean--Vlasov optimal control problem. This control problem is closely related to the Schr\"odinger bridge (or entropic optimal transport) problem, and its value is proportional to the minimum of the free energy. Finally, we show that SGD in the lazy training regime (which can be ensured by jointly tuning the variance of the Gaussian prior and the entropic regularization parameter) serves as a greedy approximation to the optimal McKean--Vlasov distributional dynamics and provide quantitative guarantees on the $L^2$ approximation error.
関連論文リスト
- Symmetric Mean-field Langevin Dynamics for Distributional Minimax
Problems [78.96969465641024]
平均場ランゲヴィンのダイナミクスを、対称で証明可能な収束した更新で、初めて確率分布に対する最小の最適化に拡張する。
また,時間と粒子の離散化機構について検討し,カオス結果の新たな均一時間伝播を証明した。
論文 参考訳(メタデータ) (2023-12-02T13:01:29Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Optimal control for state preparation in two-qubit open quantum systems
driven by coherent and incoherent controls via GRAPE approach [77.34726150561087]
我々は、コヒーレントかつ非コヒーレントな時間依存制御によって駆動される2つの量子ビットのモデルを考える。
系の力学はゴリーニ=コサコフスキー=スダルシャン=リンドブラッドのマスター方程式によって支配される。
最適化制御の下で, フォン・ノイマンエントロピー, 純度, および1ビット還元密度行列の進化について検討した。
論文 参考訳(メタデータ) (2022-11-04T15:20:18Z) - Riemannian optimization for non-centered mixture of scaled Gaussian
distributions [17.855338784378]
本稿では,スケールしたガウス分布(NC-MSG)の非中心混合の統計モデルについて検討する。
この分布に付随するフィッシャー・ラオ情報幾何を用いて、リーマン勾配降下アルゴリズムを導出する。
近距離セントロイド分類器は、KLの発散とその関連する質量中心を利用して実装される。
論文 参考訳(メタデータ) (2022-09-07T17:22:20Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - The Schr\"odinger Bridge between Gaussian Measures has a Closed Form [101.79851806388699]
我々は OT の動的定式化(Schr"odinger bridge (SB) 問題)に焦点を当てる。
本稿では,ガウス測度間のSBに対する閉形式表現について述べる。
論文 参考訳(メタデータ) (2022-02-11T15:59:01Z) - Cumulant GAN [17.4556035872983]
GAN(Generative Adversarial Networks)を学習するための新しい損失関数を提案する。
対応する最適化問題は R'enyi divergence minimization と同値であることを示す。
我々は,画像生成がWasserstein GANに対してより堅牢であることを実験的に実証した。
論文 参考訳(メタデータ) (2020-06-11T17:23:02Z) - Non-Convex Optimization via Non-Reversible Stochastic Gradient Langevin
Dynamics [27.097121544378528]
グラディエント・ランゲヴィン・ダイナミクス (Gradient Langevin Dynamics, SGLD) は、非目的勾配を最適化する強力なアルゴリズムである。
NSGLDは非可逆拡散の離散化に基づいている。
論文 参考訳(メタデータ) (2020-04-06T17:11:03Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。