論文の概要: Non-convex Bayesian Learning via Stochastic Gradient Markov Chain Monte
Carlo
- arxiv url: http://arxiv.org/abs/2305.19350v1
- Date: Tue, 30 May 2023 18:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 19:56:30.824402
- Title: Non-convex Bayesian Learning via Stochastic Gradient Markov Chain Monte
Carlo
- Title(参考訳): 確率勾配マルコフ連鎖モンテカルロによる非凸ベイズ学習
- Authors: Wei Deng
- Abstract要約: 人工知能(AI)の台頭は、非トリップと不確実性のための現代のディープニューラルネットワーク(DNN)の効率性を重視している。
本論文ではモンテカルロ利用問題を扱うためのツールを提案する。
また,基礎となる正規方程式(ODE)システムに対する2つの動的重要度サンプリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.656426393230839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of artificial intelligence (AI) hinges on the efficient training of
modern deep neural networks (DNNs) for non-convex optimization and uncertainty
quantification, which boils down to a non-convex Bayesian learning problem. A
standard tool to handle the problem is Langevin Monte Carlo, which proposes to
approximate the posterior distribution with theoretical guarantees. In this
thesis, we start with the replica exchange Langevin Monte Carlo (also known as
parallel tempering), which proposes appropriate swaps between exploration and
exploitation to achieve accelerations. However, the na\"ive extension of swaps
to big data problems leads to a large bias, and bias-corrected swaps are
required. Such a mechanism leads to few effective swaps and insignificant
accelerations. To alleviate this issue, we first propose a control variates
method to reduce the variance of noisy energy estimators and show a potential
to accelerate the exponential convergence. We also present the population-chain
replica exchange based on non-reversibility and obtain an optimal round-trip
rate for deep learning. In the second part of the thesis, we study scalable
dynamic importance sampling algorithms based on stochastic approximation.
Traditional dynamic importance sampling algorithms have achieved success,
however, the lack of scalability has greatly limited their extensions to big
data. To handle this scalability issue, we resolve the vanishing gradient
problem and propose two dynamic importance sampling algorithms. Theoretically,
we establish the stability condition for the underlying ordinary differential
equation (ODE) system and guarantee the asymptotic convergence of the latent
variable to the desired fixed point. Interestingly, such a result still holds
given non-convex energy landscapes.
- Abstract(参考訳): 人工知能(AI)の台頭は、非凸最適化と不確実性定量化のために、現代のディープニューラルネットワーク(DNN)の効率的なトレーニングに依存している。
この問題に対処する標準的なツールはランジュバン・モンテカルロ(英語版)であり、理論的な保証により後方分布を近似することを提案している。
この論文では、レプリケーション交換(Langevin Monte Carlo、並列テンパリングとも呼ばれる)から始め、探索とエクスプロイトの間の適切な交換を提案して加速を達成する。
しかし、ビッグデータ問題へのスワップの“積極的な拡張”は大きなバイアスをもたらし、バイアス修正スワップが必要になる。
このような機構は、効果的なスワップや重要な加速を少なくする。
この問題を軽減するため,まず, 雑音エネルギー推定器の分散を低減し, 指数収束を加速する可能性を示す制御変数法を提案する。
また,非可逆性に基づく人口連鎖レプリカ交換を行い,深層学習のための最適なラウンドトリップレートを得る。
論文の第2部では,確率近似に基づくスケーラブルな動的重要度サンプリングアルゴリズムについて検討する。
従来の動的重要度サンプリングアルゴリズムは成功したが、スケーラビリティの欠如はビッグデータへの拡張を著しく制限した。
このスケーラビリティ問題に対処するために,消失する勾配問題を解き,2つの動的重要度サンプリングアルゴリズムを提案する。
理論的には、基礎となる常微分方程式(ODE)系の安定性条件を確立し、潜在変数の所望の定点への漸近収束を保証する。
興味深いことに、そのような結果は依然として非凸エネルギーの景観を保っている。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - HERTA: A High-Efficiency and Rigorous Training Algorithm for Unfolded Graph Neural Networks [14.139047596566485]
HERTAは、Unfolded GNNの高効率で厳格なトレーニングアルゴリズムである。
HERTAは元のモデルの最適値に収束し、アンフォールドGNNの解釈可能性を維持する。
HERTAの副産物として、正規化および正規化グラフラプラシアンに適用可能な新しいスペクトルスカラー化法を提案する。
論文 参考訳(メタデータ) (2024-03-26T23:03:06Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Stochastic Methods in Variational Inequalities: Ergodicity, Bias and
Refinements [19.524063429548278]
Extragradient (SEG) と Gradient Descent Ascent (SGDA) は min-max 最適化と変分不等式問題に対する優越アルゴリズムである。
これらのアルゴリズムに固有の本質的な構造を定量化し定量化するための我々の取り組み。
定数のステップサイズSEG/SGDAを時間同質マルコフ連鎖として再キャストすることにより、大数の第一種法則と中心極限定理を確立する。
論文 参考訳(メタデータ) (2023-06-28T18:50:07Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Can Decentralized Stochastic Minimax Optimization Algorithms Converge
Linearly for Finite-Sum Nonconvex-Nonconcave Problems? [56.62372517641597]
分散化されたミニマックス最適化は、幅広い機械学習に応用されているため、ここ数年で活発に研究されている。
本稿では,非コンカブ問題に対する2つの新しい分散化ミニマックス最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-24T02:19:39Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。