論文の概要: Losing momentum in continuous-time stochastic optimisation
- arxiv url: http://arxiv.org/abs/2209.03705v2
- Date: Tue, 05 Nov 2024 11:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:55:31.297163
- Title: Losing momentum in continuous-time stochastic optimisation
- Title(参考訳): 連続時間確率最適化における損失運動量
- Authors: Kexin Jin, Jonas Latz, Chenguang Liu, Alessandro Scagliotti,
- Abstract要約: 運動量に基づく最適化アルゴリズムは 特に広まりました
本研究では、運動量を伴う勾配降下の連続時間モデルを解析する。
また、画像分類問題において畳み込みニューラルネットワークを訓練する。
- 参考スコア(独自算出の注目度): 42.617042045455506
- License:
- Abstract: The training of modern machine learning models often consists in solving high-dimensional non-convex optimisation problems that are subject to large-scale data. In this context, momentum-based stochastic optimisation algorithms have become particularly widespread. The stochasticity arises from data subsampling which reduces computational cost. Both, momentum and stochasticity help the algorithm to converge globally. In this work, we propose and analyse a continuous-time model for stochastic gradient descent with momentum. This model is a piecewise-deterministic Markov process that represents the optimiser by an underdamped dynamical system and the data subsampling through a stochastic switching. We investigate longtime limits, the subsampling-to-no-subsampling limit, and the momentum-to-no-momentum limit. We are particularly interested in the case of reducing the momentum over time. Under convexity assumptions, we show convergence of our dynamical system to the global minimiser when reducing momentum over time and letting the subsampling rate go to infinity. We then propose a stable, symplectic discretisation scheme to construct an algorithm from our continuous-time dynamical system. In experiments, we study our scheme in convex and non-convex test problems. Additionally, we train a convolutional neural network in an image classification problem. Our algorithm {attains} competitive results compared to stochastic gradient descent with momentum.
- Abstract(参考訳): 現代の機械学習モデルのトレーニングは、大規模なデータを必要とする高次元の非凸最適化問題を解くことで構成されることが多い。
この文脈では、運動量に基づく確率的最適化アルゴリズムが特に普及している。
確率性は計算コストを削減するデータサブサンプリングから生じる。
運動量も確率性も、アルゴリズムがグローバルに収束するのに役立ちます。
本研究では,運動量を伴う確率勾配降下に対する連続時間モデルの提案と解析を行う。
このモデルは、過小評価された力学系によるオプティマイザと確率スイッチングによるデータサブサンプリングを表す、断片的決定論的マルコフ過程である。
本研究では, 長期限界, サブサンプリング・ノーサンプリング限界, モーメント・ツー・ノーモーメント限界について検討する。
私たちは特に、時間とともに勢いを下げるケースに興味を持っています。
凸性仮定の下では、時間とともに運動量を減らし、サブサンプリングレートが無限大になるときに、我々の力学系を大域最小化器に収束させることが示される。
そこで我々は,我々の連続時間力学系からアルゴリズムを構築するための,安定かつシンプレクティックな離散化手法を提案する。
実験では,凸および非凸試験問題における提案手法について検討した。
さらに、画像分類問題において畳み込みニューラルネットワークを訓練する。
我々のアルゴリズムは、運動量による確率勾配降下と比較して、競争結果を達成している。
関連論文リスト
- Reduced-Order Neural Operators: Learning Lagrangian Dynamics on Highly Sparse Graphs [20.271792055491662]
本稿では, 流体流動, 粒状流, エラスト塑性などのラグランジアン力学のシミュレーションを, ニューラル演算子に基づく低次モデリングにより高速化することを提案する。
我々のフレームワークは、任意の空間的離散化をトレーニングし、ニューラル演算子を通してこれらの離散化のスパースサンプリングの時間的ダイナミクスを計算する。
論文 参考訳(メタデータ) (2024-07-04T13:37:26Z) - Optimistic Active Exploration of Dynamical Systems [52.91573056896633]
我々はOPAXと呼ばれる活発な探索のためのアルゴリズムを開発した。
我々は,OPAXを各エピソードで解決可能な最適制御問題に還元する方法を示す。
実験の結果,OPAXは理論的に健全であるだけでなく,新規な下流タスクのゼロショット計画にも有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:26:59Z) - Hessian Averaging in Stochastic Newton Methods Achieves Superlinear
Convergence [69.65563161962245]
ニュートン法を用いて,滑らかで強凸な目的関数を考える。
最適段階において局所収束に遷移する普遍重み付き平均化スキームが存在することを示す。
論文 参考訳(メタデータ) (2022-04-20T07:14:21Z) - Variational Inference for Continuous-Time Switching Dynamical Systems [29.984955043675157]
従属拡散過程を変調したマルコフジャンプ過程に基づくモデルを提案する。
我々は,新しい連続時間変動推定アルゴリズムを開発した。
モデル仮定と実世界の実例に基づいて,我々のアルゴリズムを広範囲に評価する。
論文 参考訳(メタデータ) (2021-09-29T15:19:51Z) - Stochastic Optimization under Distributional Drift [3.0229888038442922]
予測と高い確率の両方で有効な境界に焦点をあて、平均化を繰り返すアルゴリズムに対して非漸近収束保証を提供する。
勾配法の追従効率がステップ崩壊スケジュールから大きく向上する低ドリフト・ツー・ノイズ方式を同定する。
論文 参考訳(メタデータ) (2021-08-16T21:57:39Z) - Reconstructing a dynamical system and forecasting time series by
self-consistent deep learning [4.947248396489835]
ノイズの多い決定論的時系列に自己一貫性のあるディープラーニングフレームワークを導入する。
教師なしフィルタリング、状態空間再構成、基礎となる微分方程式の同定、予測を提供する。
論文 参考訳(メタデータ) (2021-08-04T06:10:58Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Dynamical mean-field theory for stochastic gradient descent in Gaussian
mixture classification [25.898873960635534]
高次元景観を分類する単一層ニューラルネットワークにおける勾配降下(SGD)の閉学習ダイナミクスを解析する。
連続次元勾配流に拡張可能なプロトタイププロセスを定義する。
フルバッチ限界では、標準勾配流を回復する。
論文 参考訳(メタデータ) (2020-06-10T22:49:41Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。