論文の概要: Multiplicative noise and heavy tails in stochastic optimization
- arxiv url: http://arxiv.org/abs/2006.06293v1
- Date: Thu, 11 Jun 2020 09:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 13:41:57.318533
- Title: Multiplicative noise and heavy tails in stochastic optimization
- Title(参考訳): 確率最適化における乗法ノイズと重テール
- Authors: Liam Hodgkinson, Michael W. Mahoney
- Abstract要約: 経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
- 参考スコア(独自算出の注目度): 62.993432503309485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although stochastic optimization is central to modern machine learning, the
precise mechanisms underlying its success, and in particular, the precise role
of the stochasticity, still remain unclear. Modelling stochastic optimization
algorithms as discrete random recurrence relations, we show that multiplicative
noise, as it commonly arises due to variance in local rates of convergence,
results in heavy-tailed stationary behaviour in the parameters. A detailed
analysis is conducted for SGD applied to a simple linear regression problem,
followed by theoretical results for a much larger class of models (including
non-linear and non-convex) and optimizers (including momentum, Adam, and
stochastic Newton), demonstrating that our qualitative results hold much more
generally. In each case, we describe dependence on key factors, including step
size, batch size, and data variability, all of which exhibit similar
qualitative behavior to recent empirical results on state-of-the-art neural
network models from computer vision and natural language processing.
Furthermore, we empirically demonstrate how multiplicative noise and
heavy-tailed structure improve capacity for basin hopping and exploration of
non-convex loss surfaces, over commonly-considered stochastic dynamics with
only additive noise and light-tailed structure.
- Abstract(参考訳): 確率最適化は現代の機械学習の中心であるが、その成功の根底にある正確なメカニズム、特に確率性の正確な役割はまだ不明である。
確率的最適化アルゴリズムを離散ランダム再帰関係としてモデル化すると、局所収束率のばらつきによって生じる乗法的雑音がパラメータの重み付き定常挙動をもたらすことを示す。
単純な線形回帰問題に適用したSGDの詳細な解析を行い、さらに、より大規模なモデル(非線形および非凸を含む)とオプティマイザ(運動量、アダム、確率ニュートンを含む)の理論的結果を示し、定性的な結果がより一般的に成り立つことを示した。
いずれの場合においても、ステップサイズ、バッチサイズ、データ可変性といった重要な要因への依存を記述し、コンピュータビジョンや自然言語処理による最新のニューラルネットワークモデルにおける最近の経験結果と同様の質的振る舞いを示す。
さらに,積算雑音と重み付き構造が,積算雑音と軽量構造しか持たない一般的な確率力学よりも,盆地ホッピングや非凸損失面の探索能力を向上させることを実証的に示す。
関連論文リスト
- Minimax Optimal and Computationally Efficient Algorithms for Distributionally Robust Offline Reinforcement Learning [6.969949986864736]
分散ロバストなオフライン強化学習(RL)は、力学の不確実性をモデル化することによって環境摂動に対する堅牢な政策訓練を求める。
関数近似を実現するために,最小限の最適化と計算効率のアルゴリズムを提案する。
その結果、ロバストなオフラインRLの関数近似は、標準のオフラインRLと本質的に異なり、おそらくは難しいことが判明した。
論文 参考訳(メタデータ) (2024-03-14T17:55:10Z) - Learning minimal representations of stochastic processes with
variational autoencoders [52.99137594502433]
プロセスを記述するのに必要なパラメータの最小セットを決定するために、教師なしの機械学習アプローチを導入する。
我々の手法はプロセスを記述する未知のパラメータの自律的な発見を可能にする。
論文 参考訳(メタデータ) (2023-07-21T14:25:06Z) - Adaptive Conditional Quantile Neural Processes [9.066817971329899]
条件量子ニューラルプロセス(CQNP)は、ニューラルプロセスファミリーの新たなメンバーである。
本稿では,情報量推定に焦点をあてることから学習する量子レグレッションの拡張を提案する。
実データと合成データセットによる実験は、予測性能を大幅に改善した。
論文 参考訳(メタデータ) (2023-05-30T06:19:19Z) - A Causality-Based Learning Approach for Discovering the Underlying
Dynamics of Complex Systems from Partial Observations with Stochastic
Parameterization [1.2882319878552302]
本稿では,部分的な観測を伴う複雑な乱流系の反復学習アルゴリズムを提案する。
モデル構造を識別し、観測されていない変数を復元し、パラメータを推定する。
数値実験により、新しいアルゴリズムはモデル構造を同定し、多くの複雑な非線形系に対して適切なパラメータ化を提供することに成功した。
論文 参考訳(メタデータ) (2022-08-19T00:35:03Z) - The curse of overparametrization in adversarial training: Precise
analysis of robust generalization for random features regression [34.35440701530876]
逆向きに訓練されたランダムな特徴モデルでは、高い過度なパラメータ化が堅牢な一般化を損なう可能性があることを示す。
提案理論は, 強靭性に対する過度パラメータ化の非自明な効果を明らかにし, 高過度パラメータ化が強靭性一般化を損なうことを示唆している。
論文 参考訳(メタデータ) (2022-01-13T18:57:30Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Compositional Modeling of Nonlinear Dynamical Systems with ODE-based
Random Features [0.0]
この問題に対処するための新しいドメインに依存しないアプローチを提案する。
我々は、通常の微分方程式から導かれる物理インフォームド・ランダムな特徴の合成を用いる。
提案手法は,ベンチマーク回帰タスクにおいて,他の多くの確率モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2021-06-10T17:55:13Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。