論文の概要: Approximate Heavy Tails in Offline (Multi-Pass) Stochastic Gradient
Descent
- arxiv url: http://arxiv.org/abs/2310.18455v1
- Date: Fri, 27 Oct 2023 20:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:34:35.512988
- Title: Approximate Heavy Tails in Offline (Multi-Pass) Stochastic Gradient
Descent
- Title(参考訳): オフライン(多パス)確率勾配降下における近似重テール
- Authors: Krunoslav Lehman Pavasovic, Alain Durmus, Umut Simsekli
- Abstract要約: オフライン(マルチパスとも呼ばれる)SGDの定常分布は「近似的な」パワーローテールを示す。
データポイントの数が増加するにつれて、オフラインのSGDはますます「大義的」に振る舞うのが主な特徴です。
- 参考スコア(独自算出の注目度): 33.9917975060585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A recent line of empirical studies has demonstrated that SGD might exhibit a
heavy-tailed behavior in practical settings, and the heaviness of the tails
might correlate with the overall performance. In this paper, we investigate the
emergence of such heavy tails. Previous works on this problem only considered,
up to our knowledge, online (also called single-pass) SGD, in which the
emergence of heavy tails in theoretical findings is contingent upon access to
an infinite amount of data. Hence, the underlying mechanism generating the
reported heavy-tailed behavior in practical settings, where the amount of
training data is finite, is still not well-understood. Our contribution aims to
fill this gap. In particular, we show that the stationary distribution of
offline (also called multi-pass) SGD exhibits 'approximate' power-law tails and
the approximation error is controlled by how fast the empirical distribution of
the training data converges to the true underlying data distribution in the
Wasserstein metric. Our main takeaway is that, as the number of data points
increases, offline SGD will behave increasingly 'power-law-like'. To achieve
this result, we first prove nonasymptotic Wasserstein convergence bounds for
offline SGD to online SGD as the number of data points increases, which can be
interesting on their own. Finally, we illustrate our theory on various
experiments conducted on synthetic data and neural networks.
- Abstract(参考訳): 最近の実証研究で、SGDは実践的な環境で重い尾の挙動を示し、尾の重みは全体的なパフォーマンスと相関していることが示された。
本稿では,このような重い尾の出現について検討する。
この問題に対する以前の研究は、我々の知る限り、オンライン(シングルパスとも呼ばれる)のsgdのみを考慮し、理論的な発見における重い尾の出現は、無限の量のデータにアクセスすることによるものである。
したがって、トレーニングデータの量が有限である実用的な環境で報告された重み付け行動を生成するメカニズムは、まだ十分に理解されていない。
私たちの貢献はこのギャップを埋めることを目的としています。
特に,オフライン (multi-pass) sgd の定常分布が '約' のパワーローテールを示し, その近似誤差は, トレーニングデータの経験的分布がワッサースタイン計量における真の基礎データ分布に収束する速度によって制御されることを示す。
データポイントの数が増えるにつれて、オフラインのSGDはますます「強力な法則」のように振る舞います。
この結果を達成するために,オフラインsgdからオンラインsgdへの非漸近的なwaserstein収束限界を,データポイント数の増加に伴って証明した。
最後に,本理論を合成データとニューラルネットワークを用いて行った各種実験について述べる。
関連論文リスト
- Accuracy on the wrong line: On the pitfalls of noisy data for out-of-distribution generalisation [70.36344590967519]
ノイズの多いデータやニュアンスの特徴は,その正確さを損なうのに十分であることを示す。
ノイズの多いデータとノイズのある特徴を持つ合成データセットと実データセットの両方で、この現象を実証する。
論文 参考訳(メタデータ) (2024-06-27T09:57:31Z) - Statistical Inference for Linear Functionals of Online SGD in High-dimensional Linear Regression [14.521929085104441]
オンライン勾配勾配(SGD)の線形関数に対する高次元中央極限定理(CLT)を確立する。
我々は、CLTに現れる予測と分散項を推定するオンライン手法を開発し、開発したオンライン推定器の高確率境界を確立する。
我々は、CLT結果と分散推定結果とともに、信頼区間を数値的に構築する完全オンラインおよびデータ駆動の方法として、2段階の完全オンラインバイアス補正手法を提案する。
論文 参考訳(メタデータ) (2023-02-20T02:38:36Z) - Heavy-Tail Phenomenon in Decentralized SGD [33.63000461985398]
分散勾配降下(DE-SGD)における重鎖の出現について検討する。
また,分権化が尾の挙動に及ぼす影響についても検討した。
我々の理論は、テールとネットワーク構造の間の興味深い相互作用を明らかにする。
論文 参考訳(メタデータ) (2022-05-13T14:47:04Z) - An Empirical Study of the Occurrence of Heavy-Tails in Training a ReLU
Gate [0.7614628596146599]
2つのアルゴリズムは、後者が収束することが証明できる任意のデータに類似したヘビーテールの挙動を持つと推測する。
このモデルシナリオにおける重み付き指数は、線形仮説クラスで証明されたものや、大規模ネットで実証されたものとは大きく異なる性質を持つことを示す。
論文 参考訳(メタデータ) (2022-04-26T19:28:51Z) - BCD Nets: Scalable Variational Approaches for Bayesian Causal Discovery [97.79015388276483]
構造方程式モデル(SEM)は、有向非巡回グラフ(DAG)を介して表される因果関係を推論する効果的な枠組みである。
近年の進歩により、観測データからDAGの有効最大点推定が可能となった。
線形ガウス SEM を特徴付ける DAG 上の分布を推定するための変分フレームワークである BCD Nets を提案する。
論文 参考訳(メタデータ) (2021-12-06T03:35:21Z) - Deconfounded Score Method: Scoring DAGs with Dense Unobserved
Confounding [101.35070661471124]
本研究では,観測データ分布に特徴的フットプリントが残っており,突発的・因果的影響を解消できることを示す。
汎用ソルバで実装し,高次元問題へのスケールアップが可能なスコアベース因果検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-28T11:07:59Z) - Understanding Gradient Clipping in Private SGD: A Geometric Perspective [68.61254575987013]
ディープラーニングモデルは、トレーニングデータが機密情報を含む可能性がある多くの機械学習アプリケーションで、ますます人気が高まっている。
多くの学習システムは、(異なる)プライベートSGDでモデルをトレーニングすることで、差分プライバシーを取り入れている。
各プライベートSGDアップデートにおける重要なステップは勾配クリッピングであり、L2ノルムがしきい値を超えると、個々の例の勾配を小さくする。
論文 参考訳(メタデータ) (2020-06-27T19:08:12Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。