論文の概要: Hausdorff Dimension, Heavy Tails, and Generalization in Neural Networks
- arxiv url: http://arxiv.org/abs/2006.09313v3
- Date: Sat, 22 May 2021 22:32:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 19:37:32.293074
- Title: Hausdorff Dimension, Heavy Tails, and Generalization in Neural Networks
- Title(参考訳): ニューラルネットワークにおけるハウスドルフ次元、重機、一般化
- Authors: Umut \c{S}im\c{s}ekli, Ozan Sener, George Deligiannidis, Murat A.
Erdogdu
- Abstract要約: 勾配降下(SGD)の軌跡は,emphFeller法によりよく近似できることを示す。
このような一般化の成功を測る「容量メートル法」を提案する。
- 参考スコア(独自算出の注目度): 27.54155197562196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite its success in a wide range of applications, characterizing the
generalization properties of stochastic gradient descent (SGD) in non-convex
deep learning problems is still an important challenge. While modeling the
trajectories of SGD via stochastic differential equations (SDE) under
heavy-tailed gradient noise has recently shed light over several peculiar
characteristics of SGD, a rigorous treatment of the generalization properties
of such SDEs in a learning theoretical framework is still missing. Aiming to
bridge this gap, in this paper, we prove generalization bounds for SGD under
the assumption that its trajectories can be well-approximated by a \emph{Feller
process}, which defines a rich class of Markov processes that include several
recent SDE representations (both Brownian or heavy-tailed) as its special case.
We show that the generalization error can be controlled by the \emph{Hausdorff
dimension} of the trajectories, which is intimately linked to the tail behavior
of the driving process. Our results imply that heavier-tailed processes should
achieve better generalization; hence, the tail-index of the process can be used
as a notion of "capacity metric". We support our theory with experiments on
deep neural networks illustrating that the proposed capacity metric accurately
estimates the generalization error, and it does not necessarily grow with the
number of parameters unlike the existing capacity metrics in the literature.
- Abstract(参考訳): 幅広い応用で成功したにもかかわらず、非凸深層学習問題における確率勾配勾配勾配(SGD)の一般化特性は依然として重要な課題である。
重み付き勾配雑音下での確率微分方程式(SDE)によるSGDの軌跡のモデル化は、最近SGDのいくつかの特性に光を当てている一方、学習理論の枠組みにおけるそれらのSDEの一般化特性の厳密な処理はいまだに欠けている。
このギャップを埋めるために、この論文では、その軌道が、近年のSDE表現(ブラウンあるいは重み付きの両方)を含むマルコフ過程のリッチなクラスを定義した \emph{Feller process} によって十分に近似できるという仮定の下で、SGDの一般化境界を証明している。
一般化誤差は、駆動過程の尾挙動と密接に関連している軌跡の \emph{Hausdorff dimension} によって制御可能であることを示す。
以上の結果から,重み付きプロセスはより高度な一般化を実現する必要があることが示唆され,そのプロセスのテールインデックスは「容量メートル法」の概念として利用できる。
我々は,提案するキャパシティ・メトリックが一般化誤差を正確に推定し,既存のキャパシティ・メトリックと異なりパラメータの数で必ずしも増加しないことを示すディープ・ニューラル・ネットワークの実験により,我々の理論を支持する。
関連論文リスト
- Generalization Bounds for Heavy-Tailed SDEs through the Fractional Fokker-Planck Equation [1.8416014644193066]
重み付きSDEに対して、非自明な情報理論項を伴わない高確率境界一般化を証明した。
以上の結果から,重尾は問題構造によって有益か有害かのどちらかである可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-12T15:35:32Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。