論文の概要: Multiplicative noise and heavy tails in stochastic optimization
- arxiv url: http://arxiv.org/abs/2006.06293v1
- Date: Thu, 11 Jun 2020 09:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 13:41:57.318533
- Title: Multiplicative noise and heavy tails in stochastic optimization
- Title(参考訳): 確率最適化における乗法ノイズと重テール
- Authors: Liam Hodgkinson, Michael W. Mahoney
- Abstract要約: 経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
- 参考スコア(独自算出の注目度): 62.993432503309485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although stochastic optimization is central to modern machine learning, the
precise mechanisms underlying its success, and in particular, the precise role
of the stochasticity, still remain unclear. Modelling stochastic optimization
algorithms as discrete random recurrence relations, we show that multiplicative
noise, as it commonly arises due to variance in local rates of convergence,
results in heavy-tailed stationary behaviour in the parameters. A detailed
analysis is conducted for SGD applied to a simple linear regression problem,
followed by theoretical results for a much larger class of models (including
non-linear and non-convex) and optimizers (including momentum, Adam, and
stochastic Newton), demonstrating that our qualitative results hold much more
generally. In each case, we describe dependence on key factors, including step
size, batch size, and data variability, all of which exhibit similar
qualitative behavior to recent empirical results on state-of-the-art neural
network models from computer vision and natural language processing.
Furthermore, we empirically demonstrate how multiplicative noise and
heavy-tailed structure improve capacity for basin hopping and exploration of
non-convex loss surfaces, over commonly-considered stochastic dynamics with
only additive noise and light-tailed structure.
- Abstract(参考訳): 確率最適化は現代の機械学習の中心であるが、その成功の根底にある正確なメカニズム、特に確率性の正確な役割はまだ不明である。
確率的最適化アルゴリズムを離散ランダム再帰関係としてモデル化すると、局所収束率のばらつきによって生じる乗法的雑音がパラメータの重み付き定常挙動をもたらすことを示す。
単純な線形回帰問題に適用したSGDの詳細な解析を行い、さらに、より大規模なモデル(非線形および非凸を含む)とオプティマイザ(運動量、アダム、確率ニュートンを含む)の理論的結果を示し、定性的な結果がより一般的に成り立つことを示した。
いずれの場合においても、ステップサイズ、バッチサイズ、データ可変性といった重要な要因への依存を記述し、コンピュータビジョンや自然言語処理による最新のニューラルネットワークモデルにおける最近の経験結果と同様の質的振る舞いを示す。
さらに,積算雑音と重み付き構造が,積算雑音と軽量構造しか持たない一般的な確率力学よりも,盆地ホッピングや非凸損失面の探索能力を向上させることを実証的に示す。
関連論文リスト
- Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - A Causality-Based Learning Approach for Discovering the Underlying
Dynamics of Complex Systems from Partial Observations with Stochastic
Parameterization [1.2882319878552302]
本稿では,部分的な観測を伴う複雑な乱流系の反復学習アルゴリズムを提案する。
モデル構造を識別し、観測されていない変数を復元し、パラメータを推定する。
数値実験により、新しいアルゴリズムはモデル構造を同定し、多くの複雑な非線形系に対して適切なパラメータ化を提供することに成功した。
論文 参考訳(メタデータ) (2022-08-19T00:35:03Z) - The curse of overparametrization in adversarial training: Precise
analysis of robust generalization for random features regression [31.884988141597866]
逆向きに訓練されたランダムな特徴モデルでは、高い過度なパラメータ化が堅牢な一般化を損なう可能性があることを示す。
提案理論は, 強靭性に対する過度パラメータ化の非自明な効果を明らかにし, 高過度パラメータ化が強靭性一般化を損なうことを示唆している。
論文 参考訳(メタデータ) (2022-01-13T18:57:30Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Compositional Modeling of Nonlinear Dynamical Systems with ODE-based
Random Features [0.0]
この問題に対処するための新しいドメインに依存しないアプローチを提案する。
我々は、通常の微分方程式から導かれる物理インフォームド・ランダムな特徴の合成を用いる。
提案手法は,ベンチマーク回帰タスクにおいて,他の多くの確率モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2021-06-10T17:55:13Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Statistical optimality and stability of tangent transform algorithms in
logit models [6.9827388859232045]
我々は,データ生成過程の条件として,ロジカルオプティマによって引き起こされるリスクに対して,非漸近上界を導出する。
特に,データ生成過程の仮定なしにアルゴリズムの局所的変動を確立する。
我々は,大域収束が得られる半直交設計を含む特別な場合について検討する。
論文 参考訳(メタデータ) (2020-10-25T05:15:13Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z) - Partially Observed Dynamic Tensor Response Regression [17.930417764563106]
現代のデータ科学では、動的テンソルデータが多くの応用で普及している。
本研究では,部分的に観察された動的テンソル間隔を予測子として回帰モデルを開発する。
本稿では,シミュレーションによる提案手法の有効性と2つの実応用について述べる。
論文 参考訳(メタデータ) (2020-02-22T17:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。