Fugu-MT 論文翻訳(概要): Stochastic gradient descent with noise of machine learning type. Part II: Continuous time analysis

論文の概要: Stochastic gradient descent with noise of machine learning type. Part II: Continuous time analysis

arxiv url: http://arxiv.org/abs/2106.02588v1
Date: Fri, 4 Jun 2021 16:34:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-07 15:13:50.775435
Title: Stochastic gradient descent with noise of machine learning type. Part II: Continuous time analysis
Title（参考訳）: 機械学習型雑音を伴う確率的勾配降下第2部:連続時間分析
Authors: Stephan Wojtowytsch
Abstract要約: 特定の雑音条件下では、最適化アルゴリズムは、同質雑音を伴う連続時間SGDの平坦な最小選択とは異なる意味で、目的関数の「平坦な」ミニマを好むことを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The representation of functions by artificial neural networks depends on a large number of parameters in a non-linear fashion. Suitable parameters of these are found by minimizing a 'loss functional', typically by stochastic gradient descent (SGD) or an advanced SGD-based algorithm. In a continuous time model for SGD with noise that follows the 'machine learning scaling', we show that in a certain noise regime, the optimization algorithm prefers 'flat' minima of the objective function in a sense which is different from the flat minimum selection of continuous time SGD with homogeneous noise.
Abstract（参考訳）: ニューラルネットワークによる関数の表現は、非線形な方法で多数のパラメータに依存する。これらのパラメータは、一般に確率勾配勾配(SGD)や高度なSGDベースのアルゴリズムによって、'ロス汎関数'を最小化する。機械学習のスケーリング」に追随する雑音を伴うsgdの連続時間モデルにおいて、ある種の雑音環境において、最適化アルゴリズムは、均質な雑音を伴う連続時間sgdの平坦な最小選択とは異なる意味で、目的関数の「平坦」極小度を好むことを示す。

関連論文リスト

Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。このような問題は医学、物理学、機械学習で発生する。両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文参考訳（メタデータ） (2024-11-21T10:26:17Z)
A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文参考訳（メタデータ） (2024-10-14T12:10:06Z)
A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。 i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文参考訳（メタデータ） (2024-04-18T16:46:08Z)
Using Stochastic Gradient Descent to Smooth Nonconvex Functions: Analysis of Implicit Graduated Optimization [0.6906005491572401]
バッチ降下勾配 (SGD) における雑音は, 目的関数の平滑化の効果を示す。我々は,学習率とバッチサイズによってスムース化の度合いが変化する新しい累積最適化アルゴリズムを解析する。
論文参考訳（メタデータ） (2023-11-15T07:27:40Z)
Stochastic Gradient Langevin Dynamics Based on Quantization with Increasing Resolution [0.0]
非目的関数に対する量子化最適化に基づく代替的な降下学習方程式を提案する。本稿では,バニラニューラル畳み込みニューラル(CNN)モデルにおける提案手法の有効性と各種データセット間のアーキテクチャについて述べる。
論文参考訳（メタデータ） (2023-05-30T08:55:59Z)
Computing the Variance of Shuffling Stochastic Gradient Algorithms via Power Spectral Density Analysis [6.497816402045099]
理論上の利点を持つ勾配降下(SGD)の2つの一般的な選択肢は、ランダムリシャッフル(SGDRR)とシャッフルオンス(SGD-SO)である。本研究では,SGD,SGDRR,SGD-SOの定常変動について検討した。
論文参考訳（メタデータ） (2022-06-01T17:08:04Z)
Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文参考訳（メタデータ） (2022-03-30T11:39:00Z)
The effective noise of Stochastic Gradient Descent [9.645196221785694]
Gradient Descent (SGD) は、ディープラーニング技術のワークホースアルゴリズムである。 SGDのパラメータと最近導入された変種である永続型SGDをニューラルネットワークモデルで特徴づける。よりノイズの多いアルゴリズムは、対応する制約満足度問題のより広い決定境界につながる。
論文参考訳（メタデータ） (2021-12-20T20:46:19Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
Stochastic gradient descent with noise of machine learning type. Part I: Discrete time analysis [0.0]
勾配降下(SGD)は、現代の機械学習で最も人気のあるアルゴリズムの1つです。本稿では,エネルギランドスケープの一般的な性質と,機械学習問題で発生するノイズについて論じる。
論文参考訳（メタデータ） (2021-05-04T17:52:20Z)
Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。本研究の結果は, 同時一次および二重側収束の形で表される。
論文参考訳（メタデータ） (2020-08-23T20:36:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。