論文の概要: Convergence of Batch Stochastic Gradient Descent Methods with
Approximate Gradients and/or Noisy Measurements: Theory and Computational
Results
- arxiv url: http://arxiv.org/abs/2209.05372v1
- Date: Mon, 12 Sep 2022 16:23:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:50:35.536502
- Title: Convergence of Batch Stochastic Gradient Descent Methods with
Approximate Gradients and/or Noisy Measurements: Theory and Computational
Results
- Title(参考訳): 近似勾配および/またはノイズ測定によるバッチ確率勾配降下法の収束:理論と計算結果
- Authors: Rajeeva L. Karandikar, Tadipatri Uday Kiran Reddy and M. Vidyasagar
- Abstract要約: BSGD(Block Gradient Descent)と呼ばれる非常に一般的な定式化を用いた凸最適化の研究
我々は近似理論に基づいて,BSGDが世界最小値に収束する条件を確立する。
近似勾配を用いると、BSGDは収束し、運動量に基づく手法は分岐できることを示す。
- 参考スコア(独自算出の注目度): 0.9900482274337404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study convex optimization using a very general formulation
called BSGD (Block Stochastic Gradient Descent). At each iteration, some but
not necessary all components of the argument are updated. The direction of the
update can be one of two possibilities: (i) A noise-corrupted measurement of
the true gradient, or (ii) an approximate gradient computed using a first-order
approximation, using function values that might themselves be corrupted by
noise. This formulation embraces most of the currently used stochastic gradient
methods. We establish conditions for BSGD to converge to the global minimum,
based on stochastic approximation theory. Then we verify the predicted
convergence through numerical experiments. Out results show that when
approximate gradients are used, BSGD converges while momentum-based methods can
diverge. However, not just our BSGD, but also standard (full-update) gradient
descent, and various momentum-based methods, all converge, even with noisy
gradients.
- Abstract(参考訳): 本稿では,BSGD(Block Stochastic Gradient Descent)と呼ばれる一般式を用いた凸最適化について検討する。
各イテレーションでは、引数のすべてのコンポーネントが更新されるが、必要ではない部分もある。
アップデートの方向性は2つの可能性の1つだ。
(i)真の勾配のノイズによる測定、又は
(i) 1次近似を用いて計算された近似勾配は、ノイズによって自分自身が破損する可能性のある関数値を用いて計算される。
この定式化は、現在使われている確率勾配法の大部分を取り入れている。
我々は,確率近似理論に基づいて,BSGDが世界最小値に収束する条件を確立する。
次に,予測収束を数値実験により検証する。
その結果、近似勾配を用いるとbsgdは収束し、運動量に基づく手法は分岐する。
しかしながら、我々のBSGDだけでなく、標準(完全更新)勾配降下や様々な運動量に基づく手法も、ノイズのある勾配でも収束する。
関連論文リスト
- Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - SGD with Clipping is Secretly Estimating the Median Gradient [19.69067856415625]
劣化ノードを用いた分散学習,トレーニングデータに大きな外れ値が存在すること,プライバシ制約下での学習,あるいはアルゴリズム自体のダイナミクスによるヘビーテールノイズなどについて検討する。
まず,サンプル間の中央勾配を計算し,重み付き状態依存雑音下でも収束できることを示す。
本稿では,反復の中央値勾配を推定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-20T08:54:07Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Convergence of First-Order Methods for Constrained Nonconvex
Optimization with Dependent Data [7.513100214864646]
収束$tildeO(t-1/4)$とMoreautildeO(vareps-4)$がスムーズな非最適化のために最悪の場合の複雑性を示す。
適応的なステップサイズと最適収束度を持つ投影勾配法に基づく従属データに対する最初のオンライン非負行列分解アルゴリズムを得る。
論文 参考訳(メタデータ) (2022-03-29T17:59:10Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - A Variance Controlled Stochastic Method with Biased Estimation for
Faster Non-convex Optimization [0.0]
減少勾配(SVRG)の性能を向上させるために, 分散制御勾配(VCSG)という新しい手法を提案する。
ラムダ$はVCSGで導入され、SVRGによる分散の過剰還元を避ける。
$mathcalO(min1/epsilon3/2,n1/4/epsilon)$ 勾配評価の数。
論文 参考訳(メタデータ) (2021-02-19T12:22:56Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Reparametrizing gradient descent [0.0]
本稿では,ノルム適応勾配勾配という最適化アルゴリズムを提案する。
我々のアルゴリズムは準ニュートン法と比較することもできるが、定常点ではなく根を求める。
論文 参考訳(メタデータ) (2020-10-09T20:22:29Z) - On the Convergence of SGD with Biased Gradients [28.400751656818215]
偏り勾配法 (SGD) の導出領域を解析し, 個々の更新を圧縮によって劣化させる。
偏差精度と収束率の影響の程度を定量化する。
論文 参考訳(メタデータ) (2020-07-31T19:37:59Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。