論文の概要: Trajectory-dependent Generalization Bounds for Deep Neural Networks via
Fractional Brownian Motion
- arxiv url: http://arxiv.org/abs/2206.04359v1
- Date: Thu, 9 Jun 2022 08:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 13:34:57.968683
- Title: Trajectory-dependent Generalization Bounds for Deep Neural Networks via
Fractional Brownian Motion
- Title(参考訳): フラクショナルブラウン運動による深部ニューラルネットワークの軌道依存一般化境界
- Authors: Chengli Tan, Jiangshe Zhang, Junmin Liu
- Abstract要約: 我々は、SGD が探索する仮説集合は軌道依存であり、したがってラデマッハの複雑性よりも厳密な境界を与えるかもしれないと論じる。
仮説セットの安定性を呼び起こすことで、深層ニューラルネットワークに束縛された新しい一般化を導出する。
- 参考スコア(独自算出の注目度): 14.645335645794534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite being tremendously overparameterized, it is appreciated that deep
neural networks trained by stochastic gradient descent (SGD) generalize
surprisingly well. Based on the Rademacher complexity of a pre-specified
hypothesis set, different norm-based generalization bounds have been developed
to explain this phenomenon. However, recent studies suggest these bounds might
be problematic as they increase with the training set size, which is contrary
to empirical evidence. In this study, we argue that the hypothesis set SGD
explores is trajectory-dependent and thus may provide a tighter bound over its
Rademacher complexity. To this end, we characterize the SGD recursion via a
stochastic differential equation by assuming the incurred stochastic gradient
noise follows the fractional Brownian motion. We then identify the Rademacher
complexity in terms of the covering numbers and relate it to the Hausdorff
dimension of the optimization trajectory. By invoking the hypothesis set
stability, we derive a novel generalization bound for deep neural networks.
Extensive experiments demonstrate that it predicts well the generalization gap
over several common experimental interventions. We further show that the Hurst
parameter of the fractional Brownian motion is more informative than existing
generalization indicators such as the power-law index and the upper
Blumenthal-Getoor index.
- Abstract(参考訳): 非常に過度にパラメータ化されているにもかかわらず、確率勾配降下(SGD)によって訓練されたディープニューラルネットワークは驚くほど一般化されていると評価されている。
事前特定された仮説集合のラデマッハ複雑性に基づいて、この現象を説明するために異なるノルムベースの一般化境界が開発された。
しかし、最近の研究では、これらの境界は、経験的証拠とは対照的なトレーニングセットのサイズが大きくなるにつれて問題になる可能性があると示唆されている。
本研究では,SGD が探索する仮説集合は軌道依存的であり,Radecher の複雑性に対してより厳密な拘束力を与える可能性があると論じる。
この目的のために,確率微分方程式によるsgd再帰を,確率的勾配ノイズが分数ブラウン運動に従うことを仮定して特徴付ける。
次に、被覆数の観点からラデマッハ複雑性を特定し、最適化軌道のハウスドルフ次元と関連付ける。
仮説集合の安定性を呼び出すことで、深層ニューラルネットワークに束縛された新しい一般化を導出する。
大規模な実験は、いくつかの一般的な実験介入に対する一般化ギャップをうまく予測することを示した。
さらに、分数ブラウン運動のハーストパラメータは、パワーロー指数やアッパーブルーメンタール・ゲトーア指数のような既存の一般化指標よりも有益であることを示した。
関連論文リスト
- Learning a Gaussian Mixture for Sparsity Regularization in Inverse
Problems [2.375943263571389]
逆問題では、スパーシティ事前の組み込みは、解に対する正則化効果をもたらす。
本稿では,ガウスの混合として事前に定式化された確率的疎性について提案する。
我々は、このネットワークのパラメータを推定するために、教師なしのトレーニング戦略と教師なしのトレーニング戦略をそれぞれ導入した。
論文 参考訳(メタデータ) (2024-01-29T22:52:57Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - Why Robust Generalization in Deep Learning is Difficult: Perspective of
Expressive Power [15.210336733607488]
その結果, ニューラルネットワークのサイズが指数関数的でない限り, 分割されたデータの二項分類問題に対して, 一定の頑健な一般化ギャップが存在することがわかった。
ネットワークサイズに対して$exp(mathcalO(k))$を改良し、低ロバストな一般化誤差を実現する。
論文 参考訳(メタデータ) (2022-05-27T09:53:04Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Compressive Sensing and Neural Networks from a Statistical Learning
Perspective [4.561032960211816]
線形測定の少ないスパース再構成に適したニューラルネットワークのクラスに対する一般化誤差解析を提案する。
現実的な条件下では、一般化誤差は層数で対数的にしかスケールせず、測定数ではほとんど線形である。
論文 参考訳(メタデータ) (2020-10-29T15:05:43Z) - Spectral Bias and Task-Model Alignment Explain Generalization in Kernel
Regression and Infinitely Wide Neural Networks [17.188280334580195]
トレーニングデータセットを越えた一般化は、マシンラーニングの主な目標である。
最近のディープニューラルネットワークの観測は、古典統計学の従来の知恵と矛盾している。
より多くのデータが、カーネルがノイズや表現できないときに一般化を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。