論文の概要: Trajectory-dependent Generalization Bounds for Deep Neural Networks via
Fractional Brownian Motion
- arxiv url: http://arxiv.org/abs/2206.04359v1
- Date: Thu, 9 Jun 2022 08:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 13:34:57.968683
- Title: Trajectory-dependent Generalization Bounds for Deep Neural Networks via
Fractional Brownian Motion
- Title(参考訳): フラクショナルブラウン運動による深部ニューラルネットワークの軌道依存一般化境界
- Authors: Chengli Tan, Jiangshe Zhang, Junmin Liu
- Abstract要約: 我々は、SGD が探索する仮説集合は軌道依存であり、したがってラデマッハの複雑性よりも厳密な境界を与えるかもしれないと論じる。
仮説セットの安定性を呼び起こすことで、深層ニューラルネットワークに束縛された新しい一般化を導出する。
- 参考スコア(独自算出の注目度): 14.645335645794534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite being tremendously overparameterized, it is appreciated that deep
neural networks trained by stochastic gradient descent (SGD) generalize
surprisingly well. Based on the Rademacher complexity of a pre-specified
hypothesis set, different norm-based generalization bounds have been developed
to explain this phenomenon. However, recent studies suggest these bounds might
be problematic as they increase with the training set size, which is contrary
to empirical evidence. In this study, we argue that the hypothesis set SGD
explores is trajectory-dependent and thus may provide a tighter bound over its
Rademacher complexity. To this end, we characterize the SGD recursion via a
stochastic differential equation by assuming the incurred stochastic gradient
noise follows the fractional Brownian motion. We then identify the Rademacher
complexity in terms of the covering numbers and relate it to the Hausdorff
dimension of the optimization trajectory. By invoking the hypothesis set
stability, we derive a novel generalization bound for deep neural networks.
Extensive experiments demonstrate that it predicts well the generalization gap
over several common experimental interventions. We further show that the Hurst
parameter of the fractional Brownian motion is more informative than existing
generalization indicators such as the power-law index and the upper
Blumenthal-Getoor index.
- Abstract(参考訳): 非常に過度にパラメータ化されているにもかかわらず、確率勾配降下(SGD)によって訓練されたディープニューラルネットワークは驚くほど一般化されていると評価されている。
事前特定された仮説集合のラデマッハ複雑性に基づいて、この現象を説明するために異なるノルムベースの一般化境界が開発された。
しかし、最近の研究では、これらの境界は、経験的証拠とは対照的なトレーニングセットのサイズが大きくなるにつれて問題になる可能性があると示唆されている。
本研究では,SGD が探索する仮説集合は軌道依存的であり,Radecher の複雑性に対してより厳密な拘束力を与える可能性があると論じる。
この目的のために,確率微分方程式によるsgd再帰を,確率的勾配ノイズが分数ブラウン運動に従うことを仮定して特徴付ける。
次に、被覆数の観点からラデマッハ複雑性を特定し、最適化軌道のハウスドルフ次元と関連付ける。
仮説集合の安定性を呼び出すことで、深層ニューラルネットワークに束縛された新しい一般化を導出する。
大規模な実験は、いくつかの一般的な実験介入に対する一般化ギャップをうまく予測することを示した。
さらに、分数ブラウン運動のハーストパラメータは、パワーロー指数やアッパーブルーメンタール・ゲトーア指数のような既存の一般化指標よりも有益であることを示した。
関連論文リスト
- A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Curvature-Independent Last-Iterate Convergence for Games on Riemannian
Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。
我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Understanding the Generalization Ability of Deep Learning Algorithms: A
Kernelized Renyi's Entropy Perspective [11.255943520955764]
本稿では,Renyiのエントロピーをカーネル化した新しい情報理論尺度を提案する。
我々は,Renyiエントロピーのカーネル化の下で,勾配/ランジュバン降下(SGD/SGLD)学習アルゴリズムの一般化誤差境界を確立する。
我々の情報理論的境界は勾配の統計に依存しており、現在のSOTA(State-of-the-art)結果よりも厳密であることを示す。
論文 参考訳(メタデータ) (2023-05-02T01:17:15Z) - Out-of-distributional risk bounds for neural operators with applications
to the Helmholtz equation [6.296104145657063]
既存のニューラル演算子(NO)は、全ての物理問題に対して必ずしもうまく機能しない。
非線形作用素の波動速度を解にマッピングする実験的な近似を可能にするNOのサブファミリーを提案する。
本実験は, 深度導入の一般化と関連性において, ある種のサプライズを明らかにするものである。
我々は、NOsのサブファミリーのハイパーネットワークバージョンを、前述のフォワード演算子のサロゲートモデルとして提案することで結論付ける。
論文 参考訳(メタデータ) (2023-01-27T03:02:12Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - On generalization bounds for deep networks based on loss surface
implicit regularization [5.68558935178946]
現代のディープニューラルネットワークは、多くのパラメータにもかかわらずよく一般化されている。
現在のディープニューラルネットワークは、多くのパラメータが古典的な統計的学習理論と矛盾するにもかかわらず、よく一般化されている。
論文 参考訳(メタデータ) (2022-01-12T16:41:34Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - Hausdorff Dimension, Heavy Tails, and Generalization in Neural Networks [27.54155197562196]
勾配降下(SGD)の軌跡は,emphFeller法によりよく近似できることを示す。
このような一般化の成功を測る「容量メートル法」を提案する。
論文 参考訳(メタデータ) (2020-06-16T16:57:12Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。