論文の概要: Two Facets of SDE Under an Information-Theoretic Lens: Generalization of
SGD via Training Trajectories and via Terminal States
- arxiv url: http://arxiv.org/abs/2211.10691v1
- Date: Sat, 19 Nov 2022 13:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 23:32:21.154012
- Title: Two Facets of SDE Under an Information-Theoretic Lens: Generalization of
SGD via Training Trajectories and via Terminal States
- Title(参考訳): 情報理論レンズによるSDEの2面:訓練軌道と終端状態によるSGDの一般化
- Authors: Ziqiao Wang and Yongyi Mao
- Abstract要約: SDE近似は、SGDを用いた学習機械学習モデルの力学をうまく特徴付けることが示されている。
SDEの定常重量分布の推定値が得られる。
これらの境界の開発について様々な知見が提示され、それが後に検証される。
- 参考スコア(独自算出の注目度): 27.14107452619853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic differential equations (SDEs) have been shown recently to well
characterize the dynamics of training machine learning models with SGD. This
provides two opportunities for better understanding the generalization
behaviour of SGD through its SDE approximation. First, under the SDE
characterization, SGD may be regarded as the full-batch gradient descent with
Gaussian gradient noise. This allows the application of the generalization
bounds developed by Xu & Raginsky (2017) to analyzing the generalization
behaviour of SGD, resulting in upper bounds in terms of the mutual information
between the training set and the training trajectory. Second, under mild
assumptions, it is possible to obtain an estimate of the steady-state weight
distribution of SDE. Using this estimate, we apply the PAC-Bayes-like
information-theoretic bounds developed in both Xu & Raginsky (2017) and Negrea
et al. (2019) to obtain generalization upper bounds in terms of the KL
divergence between the steady-state weight distribution of SGD with respect to
a prior distribution. Among various options, one may choose the prior as the
steady-state weight distribution obtained by SGD on the same training set but
with one example held out. In this case, the bound can be elegantly expressed
using the influence function (Koh & Liang, 2017), which suggests that the
generalization of the SGD is related to the stability of SGD. Various insights
are presented along the development of these bounds, which are subsequently
validated numerically.
- Abstract(参考訳): 確率微分方程式(SDE)は、SGDを用いた学習機械学習モデルの力学をうまく特徴づけるために最近示されている。
これにより、SDE近似を通じてSGDの一般化挙動をよりよく理解する2つの機会が得られる。
第一に、SDE特性下では、SGDはガウス勾配雑音を伴うフルバッチ勾配勾配とみなすことができる。
これにより、Xu & Raginsky (2017) によって開発された一般化境界を SGD の一般化挙動の解析に適用することができ、トレーニングセットとトレーニング軌道の間の相互情報の観点からの上界が得られる。
第二に、軽度の仮定では、SDEの定常重量分布の推定値が得られる。
この推定値を用いて、Xu & Raginsky (2017) と Negrea et al. (2019) で開発された PAC-Bayes のような情報理論境界を適用し、SGD の定常重み分布間の KL 分布の一般化の上界を求める。
様々な選択肢の中で、SGDが同じトレーニングセットで得た定常状態の重量分布として事前を選択することができるが、1つの例が示される。
この場合、境界は影響関数(Koh & Liang, 2017)を用いてエレガントに表現することができ、これはSGDの一般化がSGDの安定性と関連していることを示唆している。
これらの境界の発展にともなって様々な知見が提示され、その後数値的に検証される。
関連論文リスト
- Hitting the High-Dimensional Notes: An ODE for SGD learning dynamics on
GLMs and multi-index models [10.781866671930857]
高次元限界におけるストリーミング勾配降下(SGD)のダイナミクスを解析する。
我々は、通常の微分方程式の体系の形で、SGDの決定論的等価性を実証する。
決定論的等価性に加えて、単純化された拡散係数を持つSDEを導入する。
論文 参考訳(メタデータ) (2023-08-17T13:33:02Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Implicit Regularization or Implicit Conditioning? Exact Risk
Trajectories of SGD in High Dimensions [26.782342518986503]
勾配降下(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。
HSGD形式をストリーミングSGDに適合させる方法を示し、ストリーミングSGDと比較してマルチパスSGDの過大なリスクを正確に予測できることを示す。
論文 参考訳(メタデータ) (2022-06-15T02:32:26Z) - Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation
Regime [127.21287240963859]
勾配降下(SGD)は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。
本稿では,マルチパスSGDの一般化を強く特徴付けることを目的とする。
我々は,SGDが同じレベルの過剰リスクを達成するためには,GD以上を必要とするが,勾配評価の回数を削減できることを示した。
論文 参考訳(メタデータ) (2022-03-07T06:34:53Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Understanding Long Range Memory Effects in Deep Neural Networks [10.616643031188248]
深層学習において,SGD(textitstochastic gradient descent)が重要である。
本研究では, SGN はガウス的でも安定でもないと主張する。
そこで本研究では,SGDをFBM(textitfractional Brownian Motion)によって駆動されるSDEの離散化と見なすことができる。
論文 参考訳(メタデータ) (2021-05-05T13:54:26Z) - Understanding Gradient Clipping in Private SGD: A Geometric Perspective [68.61254575987013]
ディープラーニングモデルは、トレーニングデータが機密情報を含む可能性がある多くの機械学習アプリケーションで、ますます人気が高まっている。
多くの学習システムは、(異なる)プライベートSGDでモデルをトレーニングすることで、差分プライバシーを取り入れている。
各プライベートSGDアップデートにおける重要なステップは勾配クリッピングであり、L2ノルムがしきい値を超えると、個々の例の勾配を小さくする。
論文 参考訳(メタデータ) (2020-06-27T19:08:12Z) - Hausdorff Dimension, Heavy Tails, and Generalization in Neural Networks [27.54155197562196]
勾配降下(SGD)の軌跡は,emphFeller法によりよく近似できることを示す。
このような一般化の成功を測る「容量メートル法」を提案する。
論文 参考訳(メタデータ) (2020-06-16T16:57:12Z) - SDE approximations of GANs training and its long-run behavior [5.352630651388906]
まず、勾配アルゴリズムの下でのGANのトレーニングのためのSDE近似を確立する。
次に、適切な条件下でのSDE近似の不変性を通じて、GANsトレーニングの長期的挙動を記述する。
論文 参考訳(メタデータ) (2020-06-03T05:08:21Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。