論文の概要: Intrinsic Dimension, Persistent Homology and Generalization in Neural
Networks
- arxiv url: http://arxiv.org/abs/2111.13171v1
- Date: Thu, 25 Nov 2021 17:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 14:23:19.211828
- Title: Intrinsic Dimension, Persistent Homology and Generalization in Neural
Networks
- Title(参考訳): ニューラルネットワークにおける固有次元, 永続ホモロジー, 一般化
- Authors: Tolga Birdal, Aaron Lou, Leonidas Guibas, Umut \c{S}im\c{s}ekli
- Abstract要約: 一般化誤差は 'peristent homology dimension' (PHD) という概念で等価に有界であることを示す。
我々は,現代のディープニューラルネットワークの規模でPHDを推定する効率的なアルゴリズムを開発した。
実験の結果,提案手法はネットワークの固有次元を様々な設定で効率的に計算できることがわかった。
- 参考スコア(独自算出の注目度): 19.99615698375829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disobeying the classical wisdom of statistical learning theory, modern deep
neural networks generalize well even though they typically contain millions of
parameters. Recently, it has been shown that the trajectories of iterative
optimization algorithms can possess fractal structures, and their
generalization error can be formally linked to the complexity of such fractals.
This complexity is measured by the fractal's intrinsic dimension, a quantity
usually much smaller than the number of parameters in the network. Even though
this perspective provides an explanation for why overparametrized networks
would not overfit, computing the intrinsic dimension (e.g., for monitoring
generalization during training) is a notoriously difficult task, where existing
methods typically fail even in moderate ambient dimensions. In this study, we
consider this problem from the lens of topological data analysis (TDA) and
develop a generic computational tool that is built on rigorous mathematical
foundations. By making a novel connection between learning theory and TDA, we
first illustrate that the generalization error can be equivalently bounded in
terms of a notion called the 'persistent homology dimension' (PHD), where,
compared with prior work, our approach does not require any additional
geometrical or statistical assumptions on the training dynamics. Then, by
utilizing recently established theoretical results and TDA tools, we develop an
efficient algorithm to estimate PHD in the scale of modern deep neural networks
and further provide visualization tools to help understand generalization in
deep learning. Our experiments show that the proposed approach can efficiently
compute a network's intrinsic dimension in a variety of settings, which is
predictive of the generalization error.
- Abstract(参考訳): 統計学習理論の古典的な知恵に反し、現代のディープニューラルネットワークは、通常数百万のパラメータを含むにもかかわらず、よく一般化される。
近年、反復最適化アルゴリズムの軌道はフラクタル構造を持ち、それらの一般化誤差はそのようなフラクタルの複雑さと公式に結びつくことが示されている。
この複雑さはフラクタルの固有次元によって測定され、ネットワーク内のパラメータの数よりもはるかに小さい量である。
この観点は、過度にパラメータ化されたネットワークが過度に適合しない理由を説明するものであるが、本質的な次元(例えば、訓練中の一般化を監視すること)の計算は、通常、中程度の環境次元でも既存の手法が失敗する、非常に難しいタスクである。
本研究では,この問題を位相データ解析(tda)のレンズから考察し,厳密な数学的基礎に基づく汎用計算ツールを開発した。
学習理論とTDAの新たな結びつきによって、一般化誤差は「永続ホモロジー次元(Peristent homology dimension)」(PHD)という概念によって等価に境界づけられることを示した。
そして、最近確立された理論結果とTDAツールを利用して、現代の深層ニューラルネットワークの規模でPHDを推定する効率的なアルゴリズムを開発し、さらにディープラーニングの一般化を理解するための可視化ツールを提供する。
提案手法は,ネットワークの固有次元を様々な設定で効率的に計算し,一般化誤差を予測できることを示す。
関連論文リスト
- Topological Generalization Bounds for Discrete-Time Stochastic Optimization Algorithms [15.473123662393169]
ディープニューラルネットワーク(DNN)は、顕著な一般化特性を示す。
これらの能力の源泉は依然として解明され、確立された統計的学習理論を否定している。
近年の研究では、訓練軌跡の性質が一般化の指標であることが示されている。
論文 参考訳(メタデータ) (2024-07-11T17:56:03Z) - On the Limitations of Fractal Dimension as a Measure of Generalization [18.257634786946397]
フラクタル次元は、低初期化から訓練されたモデルの一般化を予測できないことを示す。
また、学習理論における最も単純な複雑性測度の一つである最終パラメータのell2$ノルムが、これらのフラクタル次元の概念よりも一般化ギャップと強く相関していることも示している。
この研究は、フラクタル幾何学、トポロジカルデータ分析、ニューラルネットワーク最適化の間の因果関係のより深い研究の基盤となる。
論文 参考訳(メタデータ) (2024-06-04T11:56:19Z) - Generalization Bounds with Data-dependent Fractal Dimensions [5.833272638548154]
フラクタル幾何学に基づく一般化境界をリプシッツの仮定を必要とせずに証明する。
技術的な複雑さは相当に多いが、この新しい概念は一般化誤差を制御できる。
論文 参考訳(メタデータ) (2023-02-06T13:24:48Z) - Learning Theory Can (Sometimes) Explain Generalisation in Graph Neural
Networks [13.518582483147325]
本稿では,トランスダクティブ推論の文脈におけるニューラルネットワークの性能を厳密に分析する。
本稿では, ブロックモデルに対するグラフ畳み込みネットワークの一般化特性について, トランスダクティブなRademacher複雑性が説明できることを示す。
論文 参考訳(メタデータ) (2021-12-07T20:06:23Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。