論文の概要: Losing momentum in continuous-time stochastic optimisation
- arxiv url: http://arxiv.org/abs/2209.03705v1
- Date: Thu, 8 Sep 2022 10:46:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 13:41:59.629094
- Title: Losing momentum in continuous-time stochastic optimisation
- Title(参考訳): 連続時間確率最適化における損失運動量
- Authors: Kexin Jin, Jonas Latz, Chenguang Liu, Alessandro Scagliotti
- Abstract要約: 近年,運動量に基づくアルゴリズムが特に普及している。
本研究では,運動量を伴う勾配降下の連続時間モデルを提案し,解析する。
我々は、時間とともに運動量を減らす際に、我々のシステムを世界規模のミニミザーに収束させることを示す。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training of deep neural networks and other modern machine learning models
usually consists in solving non-convex optimisation problems that are
high-dimensional and subject to large-scale data. Here, momentum-based
stochastic optimisation algorithms have become especially popular in recent
years. The stochasticity arises from data subsampling which reduces
computational cost. Moreover, both, momentum and stochasticity are supposed to
help the algorithm to overcome local minimisers and, hopefully, converge
globally. Theoretically, this combination of stochasticity and momentum is
badly understood.
In this work, we propose and analyse a continuous-time model for stochastic
gradient descent with momentum. This model is a piecewise-deterministic Markov
process that represents the particle movement by an underdamped dynamical
system and the data subsampling through a stochastic switching of the dynamical
system. In our analysis, we investigate longtime limits, the
subsampling-to-no-subsampling limit, and the momentum-to-no-momentum limit. We
are particularly interested in the case of reducing the momentum over time:
intuitively, the momentum helps to overcome local minimisers in the initial
phase of the algorithm, but prohibits fast convergence to a global minimiser
later. Under convexity assumptions, we show convergence of our dynamical system
to the global minimiser when reducing momentum over time and let the
subsampling rate go to infinity.
We then propose a stable, symplectic discretisation scheme to construct an
algorithm from our continuous-time dynamical system. In numerical experiments,
we study our discretisation scheme in convex and non-convex test problems.
Additionally, we train a convolutional neural network to solve the CIFAR-10
image classification problem. Here, our algorithm reaches competitive results
compared to stochastic gradient descent with momentum.
- Abstract(参考訳): ディープニューラルネットワークやその他の現代の機械学習モデルのトレーニングは通常、高次元で大規模データの対象となる非凸最適化問題を解くことで構成される。
近年,運動量に基づく確率的最適化アルゴリズムが特に普及している。
確率性は計算コストを削減するデータサブサンプリングから生じる。
さらに、運動量と確率性は、アルゴリズムが局所的なミニミザを克服し、願わくばグローバルに収束するのに役立つはずである。
理論的には、この確率性と運動量の組み合わせはひどく理解されている。
本研究では,運動量を伴う確率勾配降下に対する連続時間モデルの提案と解析を行う。
このモデルは、過大な力学系による粒子の運動と、力学系の確率的切替によるデータサブサンプリングを表す、断片的決定論的マルコフ過程である。
本分析では, 長期限界, サブサンプリング・ノーサンプリング限界, モーメント・ノーモーメント限界について検討した。
直感的には、モーメントはアルゴリズムの初期段階で局所的なミニミザーを克服するのに役立つが、後にグローバルなミニミザーへの高速収束を禁止している。
凸性仮定の下では、時間とともに運動量を減らすとき、我々の力学系を大域最小化器に収束させ、サブサンプリングレートを無限大にする。
次に,連続時間力学系からアルゴリズムを構築するための安定なシンプレクティック離散化スキームを提案する。
数値実験において,凸および非凸試験問題における離散化方式について検討した。
さらに、CIFAR-10画像分類問題を解くために畳み込みニューラルネットワークを訓練する。
ここで,本アルゴリズムは運動量による確率勾配勾配よりも競合的な結果が得られる。
関連論文リスト
- Reduced-Order Neural Operators: Learning Lagrangian Dynamics on Highly Sparse Graphs [20.271792055491662]
本稿では, 流体流動, 粒状流, エラスト塑性などのラグランジアン力学のシミュレーションを, ニューラル演算子に基づく低次モデリングにより高速化することを提案する。
我々のフレームワークは、任意の空間的離散化をトレーニングし、ニューラル演算子を通してこれらの離散化のスパースサンプリングの時間的ダイナミクスを計算する。
論文 参考訳(メタデータ) (2024-07-04T13:37:26Z) - Optimistic Active Exploration of Dynamical Systems [52.91573056896633]
我々はOPAXと呼ばれる活発な探索のためのアルゴリズムを開発した。
我々は,OPAXを各エピソードで解決可能な最適制御問題に還元する方法を示す。
実験の結果,OPAXは理論的に健全であるだけでなく,新規な下流タスクのゼロショット計画にも有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:26:59Z) - Hessian Averaging in Stochastic Newton Methods Achieves Superlinear
Convergence [69.65563161962245]
ニュートン法を用いて,滑らかで強凸な目的関数を考える。
最適段階において局所収束に遷移する普遍重み付き平均化スキームが存在することを示す。
論文 参考訳(メタデータ) (2022-04-20T07:14:21Z) - Variational Inference for Continuous-Time Switching Dynamical Systems [29.984955043675157]
従属拡散過程を変調したマルコフジャンプ過程に基づくモデルを提案する。
我々は,新しい連続時間変動推定アルゴリズムを開発した。
モデル仮定と実世界の実例に基づいて,我々のアルゴリズムを広範囲に評価する。
論文 参考訳(メタデータ) (2021-09-29T15:19:51Z) - Stochastic Optimization under Distributional Drift [3.0229888038442922]
予測と高い確率の両方で有効な境界に焦点をあて、平均化を繰り返すアルゴリズムに対して非漸近収束保証を提供する。
勾配法の追従効率がステップ崩壊スケジュールから大きく向上する低ドリフト・ツー・ノイズ方式を同定する。
論文 参考訳(メタデータ) (2021-08-16T21:57:39Z) - Reconstructing a dynamical system and forecasting time series by
self-consistent deep learning [4.947248396489835]
ノイズの多い決定論的時系列に自己一貫性のあるディープラーニングフレームワークを導入する。
教師なしフィルタリング、状態空間再構成、基礎となる微分方程式の同定、予測を提供する。
論文 参考訳(メタデータ) (2021-08-04T06:10:58Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Dynamical mean-field theory for stochastic gradient descent in Gaussian
mixture classification [25.898873960635534]
高次元景観を分類する単一層ニューラルネットワークにおける勾配降下(SGD)の閉学習ダイナミクスを解析する。
連続次元勾配流に拡張可能なプロトタイププロセスを定義する。
フルバッチ限界では、標準勾配流を回復する。
論文 参考訳(メタデータ) (2020-06-10T22:49:41Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。