論文の概要: On the Distributional Properties of Adaptive Gradients
- arxiv url: http://arxiv.org/abs/2105.07222v1
- Date: Sat, 15 May 2021 13:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 15:03:49.521855
- Title: On the Distributional Properties of Adaptive Gradients
- Title(参考訳): 適応勾配の分布特性について
- Authors: Zhang Zhiyi, Liu Ziyin
- Abstract要約: 基礎となる勾配が正規分布に従うとき、textitupdateの大きさのばらつきは時間の増減と有界関数であることを示す。
この研究は、分散のばらつきが、現在の文献で信じられているものとは対照的に、アダムの暖房の必要性の原因ではないことを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive gradient methods have achieved remarkable success in training deep
neural networks on a wide variety of tasks. However, not much is known about
the mathematical and statistical properties of this family of methods. This
work aims at providing a series of theoretical analyses of its statistical
properties justified by experiments. In particular, we show that when the
underlying gradient obeys a normal distribution, the variance of the magnitude
of the \textit{update} is an increasing and bounded function of time and does
not diverge. This work suggests that the divergence of variance is not the
cause of the need for warm up of the Adam optimizer, contrary to what is
believed in the current literature.
- Abstract(参考訳): 適応勾配法は、様々なタスクでディープニューラルネットワークのトレーニングに顕著な成功を収めた。
しかし、この種類の手法の数学的および統計的性質についてはあまり知られていない。
この研究は、実験によって正当化された統計特性の一連の理論的解析を提供することを目的としている。
特に、基礎となる勾配が正規分布に従うとき、 \textit{update} の大きさのばらつきは時間の増減かつ有界な関数であり、分岐しないことを示す。
この研究は、分散のばらつきが、現在の文献で信じられているものとは対照的に、アダム最適化器のウォームアップの必要性の原因ではないことを示唆している。
関連論文リスト
- Good regularity creates large learning rate implicit biases: edge of
stability, balancing, and catapult [49.8719617899285]
非最適化のための客観的降下に適用された大きな学習速度は、安定性の端を含む様々な暗黙のバイアスをもたらす。
この論文は降下の初期段階を示し、これらの暗黙の偏見が実際には同じ氷山であることを示す。
論文 参考訳(メタデータ) (2023-10-26T01:11:17Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - A Heavy-Tailed Algebra for Probabilistic Programming [53.32246823168763]
本稿では,確率変数の尾を解析するための体系的アプローチを提案する。
本稿では,確率型プログラミング言語コンパイラの静的解析(サンプル作成前)において,この手法をどのように利用できるかを示す。
実験結果から,重み付き代数を利用する推論アルゴリズムは,多数の密度モデリングおよび変分推論タスクにおいて優れた性能が得られることを確認した。
論文 参考訳(メタデータ) (2023-06-15T16:37:36Z) - Adaptive State-Dependent Diffusion for Derivative-Free Optimization [15.535124460414588]
本稿では,デリバティブフリー最適化戦略を開発し,解析する。
重要な特徴は、状態依存適応分散である。
確率における大域収束を代数的速度で証明する。
論文 参考訳(メタデータ) (2023-02-08T23:23:39Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z) - Uncertainty Modeling for Out-of-Distribution Generalization [56.957731893992495]
特徴統計を適切に操作することで、ディープラーニングモデルの一般化能力を向上させることができると論じる。
一般的な手法では、特徴統計を学習した特徴から測定された決定論的値とみなすことが多い。
我々は、学習中に合成された特徴統計を用いて、領域シフトの不確かさをモデル化することにより、ネットワークの一般化能力を向上させる。
論文 参考訳(メタデータ) (2022-02-08T16:09:12Z) - Covariate Shift in High-Dimensional Random Feature Regression [44.13449065077103]
共変量シフトは、堅牢な機械学習モデルの開発において重要な障害である。
現代の機械学習の文脈における理論的理解を示す。
論文 参考訳(メタデータ) (2021-11-16T05:23:28Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - Non-Asymptotic Performance Guarantees for Neural Estimation of
$\mathsf{f}$-Divergences [22.496696555768846]
統計的距離は確率分布の相似性を定量化する。
このようなデータからの距離を推定する現代的な方法は、ニューラルネットワーク(NN)による変動形態のパラメータ化と最適化に依存する。
本稿では,このトレードオフを非漸近誤差境界を用いて検討し,SDの3つの一般的な選択に焦点をあてる。
論文 参考訳(メタデータ) (2021-03-11T19:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。