論文の概要: On the Convergence of SGD with Biased Gradients
- arxiv url: http://arxiv.org/abs/2008.00051v2
- Date: Sun, 9 May 2021 19:49:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 06:21:38.810804
- Title: On the Convergence of SGD with Biased Gradients
- Title(参考訳): バイアス勾配を持つSGDの収束性について
- Authors: Ahmad Ajalloeian and Sebastian U. Stich
- Abstract要約: 偏り勾配法 (SGD) の導出領域を解析し, 個々の更新を圧縮によって劣化させる。
偏差精度と収束率の影響の程度を定量化する。
- 参考スコア(独自算出の注目度): 28.400751656818215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze the complexity of biased stochastic gradient methods (SGD), where
individual updates are corrupted by deterministic, i.e. biased error terms. We
derive convergence results for smooth (non-convex) functions and give improved
rates under the Polyak-Lojasiewicz condition. We quantify how the magnitude of
the bias impacts the attainable accuracy and the convergence rates (sometimes
leading to divergence).
Our framework covers many applications where either only biased gradient
updates are available, or preferred, over unbiased ones for performance
reasons. For instance, in the domain of distributed learning, biased gradient
compression techniques such as top-k compression have been proposed as a tool
to alleviate the communication bottleneck and in derivative-free optimization,
only biased gradient estimators can be queried. We discuss a few guiding
examples that show the broad applicability of our analysis.
- Abstract(参考訳): 個々の更新が決定論的,すなわちバイアス付き誤り項によって腐敗するバイアス付き確率的勾配法(sgd)の複雑性を分析する。
滑らかな(非凸な)函数に対する収束結果を導出し、ポリアック・ロジャシエヴィチ条件下での改善率を与える。
バイアスの大きさが達成可能な精度と収束率(時には分岐につながる)に与える影響を定量化する。
私たちのフレームワークは、パフォーマンス上の理由から偏りのないものよりもバイアスド・グラデーション・アップデートしか利用できない、あるいは好ましくない、多くのアプリケーションをカバーしています。
例えば、分散学習の領域では、通信ボトルネックを緩和するツールとしてtop-k圧縮のようなバイアスド勾配圧縮手法が提案されており、デリバティブフリー最適化ではバイアスド勾配推定器のみを問い合わせることができる。
分析の幅広い適用性を示すガイドとなる例をいくつか紹介する。
関連論文リスト
- Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Parallel Momentum Methods Under Biased Gradient Estimations [11.074080383657453]
並列勾配法は、複数のノードに分散したデータを含む大規模機械学習問題の解決において注目されている。
しかし、最も理論的な研究の焦点となっている非バイアス境界の取得は、多くの機械学習応用において困難である。
本稿では,メタラーニングにおける推定値の偏りや,勾配の圧縮や切り抜きといった特殊勾配の影響について検討する。
論文 参考訳(メタデータ) (2024-02-29T18:03:03Z) - Non-asymptotic Analysis of Biased Adaptive Stochastic Approximation [0.8192907805418583]
偏りのある勾配は滑らかな非函数に対する臨界点に収束することを示す。
適切なチューニングを行うことで,バイアスの効果を低減できることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:17:36Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Curvature-Independent Last-Iterate Convergence for Games on Riemannian
Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。
我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Large deviations rates for stochastic gradient descent with strongly
convex functions [11.247580943940916]
勾配降下を伴う一般高確率境界の研究のための公式な枠組みを提供する。
強い凸関数を持つSGDの上限となる大きな偏差が見つかる。
論文 参考訳(メタデータ) (2022-11-02T09:15:26Z) - Convergence of Batch Stochastic Gradient Descent Methods with
Approximate Gradients and/or Noisy Measurements: Theory and Computational
Results [0.9900482274337404]
BSGD(Block Gradient Descent)と呼ばれる非常に一般的な定式化を用いた凸最適化の研究
我々は近似理論に基づいて,BSGDが世界最小値に収束する条件を確立する。
近似勾配を用いると、BSGDは収束し、運動量に基づく手法は分岐できることを示す。
論文 参考訳(メタデータ) (2022-09-12T16:23:15Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Understanding Gradient Clipping in Private SGD: A Geometric Perspective [68.61254575987013]
ディープラーニングモデルは、トレーニングデータが機密情報を含む可能性がある多くの機械学習アプリケーションで、ますます人気が高まっている。
多くの学習システムは、(異なる)プライベートSGDでモデルをトレーニングすることで、差分プライバシーを取り入れている。
各プライベートSGDアップデートにおける重要なステップは勾配クリッピングであり、L2ノルムがしきい値を超えると、個々の例の勾配を小さくする。
論文 参考訳(メタデータ) (2020-06-27T19:08:12Z) - Non-asymptotic bounds for stochastic optimization with biased noisy
gradient oracles [8.655294504286635]
関数の測定値が推定誤差を持つ設定を捉えるために,バイアス付き勾配オラクルを導入する。
提案するオラクルは,例えば,独立分散シミュレーションと同一分散シミュレーションのバッチによるリスク計測推定の実践的な状況にある。
論文 参考訳(メタデータ) (2020-02-26T12:53:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。