論文の概要: The Computational Advantage of Depth: Learning High-Dimensional Hierarchical Functions with Gradient Descent
- arxiv url: http://arxiv.org/abs/2502.13961v1
- Date: Wed, 19 Feb 2025 18:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 20:12:10.071389
- Title: The Computational Advantage of Depth: Learning High-Dimensional Hierarchical Functions with Gradient Descent
- Title(参考訳): 深度計算の長所--高次元階層関数の学習
- Authors: Yatin Dandi, Luca Pesce, Lenka Zdeborová, Florent Krzakala,
- Abstract要約: 潜在部分空間次元の階層構造を組み込んだ対象関数のクラスを導入する。
我々の主定理は、勾配降下による特徴学習が有効次元を減少させることを示している。
これらの知見は、ディープネットワークを用いた階層構造学習における深度の重要な役割について、さらに定量的に研究する道を開く。
- 参考スコア(独自算出の注目度): 28.999394988111106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the advantages of deep neural networks trained by gradient descent (GD) compared to shallow models remains an open theoretical challenge. While the study of multi-index models with Gaussian data in high dimensions has provided analytical insights into the benefits of GD-trained neural networks over kernels, the role of depth in improving sample complexity and generalization in GD-trained networks remains poorly understood. In this paper, we introduce a class of target functions (single and multi-index Gaussian hierarchical targets) that incorporate a hierarchy of latent subspace dimensionalities. This framework enables us to analytically study the learning dynamics and generalization performance of deep networks compared to shallow ones in the high-dimensional limit. Specifically, our main theorem shows that feature learning with GD reduces the effective dimensionality, transforming a high-dimensional problem into a sequence of lower-dimensional ones. This enables learning the target function with drastically less samples than with shallow networks. While the results are proven in a controlled training setting, we also discuss more common training procedures and argue that they learn through the same mechanisms. These findings open the way to further quantitative studies of the crucial role of depth in learning hierarchical structures with deep networks.
- Abstract(参考訳): 浅いモデルと比較して勾配降下(GD)によって訓練されたディープニューラルネットワークの利点を理解することは、オープンな理論上の課題である。
高次元のガウスデータを用いたマルチインデックスモデルの研究は、カーネル上のGD学習ニューラルネットワークの利点に関する分析的な洞察を与えてきたが、GD学習ネットワークにおけるサンプル複雑性の改善と一般化における深度の役割は、まだよく分かっていない。
本稿では,潜在部分空間次元の階層構造を含む対象関数のクラス(単一および多次元ガウス的階層的対象)を紹介する。
この枠組みは,高次元限界の浅いものと比較して,深層ネットワークの学習力学と一般化性能を解析的に研究することを可能にする。
具体的には,GDを用いた特徴学習は,高次元問題から低次元問題へと変換し,有効次元性を低下させることを示す。
これにより、浅いネットワークよりもはるかに少ないサンプルでターゲット関数を学習することができる。
結果が制御されたトレーニング環境で証明されている一方で、より一般的なトレーニング手順について議論し、同じメカニズムで学習すると主張する。
これらの知見は、ディープネットワークを用いた階層構造学習における深度の重要な役割について、さらに定量的に研究する道を開く。
関連論文リスト
- An Overview of Low-Rank Structures in the Training and Adaptation of Large Models [52.67110072923365]
近年の研究では、低ランク構造の出現というディープネットワークの広範な現象が明らかになった。
これらの暗黙の低次元パターンは、トレーニングの効率と微調整された大規模モデルを改善するための貴重な洞察を提供する。
深層学習のための低ランク構造の利用の進歩を概観し,その数学的基礎に光を当てる。
論文 参考訳(メタデータ) (2025-03-25T17:26:09Z) - Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - Approximating Latent Manifolds in Neural Networks via Vanishing Ideals [20.464009622419766]
我々は, 無限イデアルがディープネットワークの潜在多様体をいかに特徴付けるかを示すことによって, 多様体学習と計算代数学の関連性を確立する。
本稿では,中間層で事前学習されたネットワークを切断し,消滅するイデアルのジェネレータを介して各クラス多様体を近似するニューラルアーキテクチャを提案する。
得られたモデルは、トレーニング済みのベースラインよりも著しく少ないが、同等の精度を維持し、高いスループットを実現し、パラメータが少ない。
論文 参考訳(メタデータ) (2025-02-20T21:23:02Z) - Informed deep hierarchical classification: a non-standard analysis inspired approach [0.0]
出力層の前に配置された特定のプロジェクション演算子を備えた多出力ディープニューラルネットワークで構成されている。
このようなアーキテクチャの設計は、LH-DNN(Lexicographic Hybrid Deep Neural Network)と呼ばれ、異なる研究分野と非常に離れた研究分野のツールを組み合わせることで実現されている。
アプローチの有効性を評価するために、階層的な分類タスクに適した畳み込みニューラルネットワークであるB-CNNと比較する。
論文 参考訳(メタデータ) (2024-09-25T14:12:50Z) - Convergence Analysis for Deep Sparse Coding via Convolutional Neural Networks [7.956678963695681]
スパースコーディングとディープラーニングの交差点を探索し,特徴抽出能力の理解を深める。
我々は、畳み込みニューラルネットワーク(CNN)のスパース特徴抽出能力の収束率を導出する。
スパースコーディングとCNNの強いつながりにインスパイアされた私たちは、ニューラルネットワークがよりスパースな機能を学ぶように促すトレーニング戦略を探求する。
論文 参考訳(メタデータ) (2024-08-10T12:43:55Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Repetita Iuvant: Data Repetition Allows SGD to Learn High-Dimensional Multi-Index Functions [20.036783417617652]
勾配に基づくアルゴリズムを用いて学習した2層浅層ニューラルネットワークのトレーニング力学について検討する。
理想化シングルパス勾配勾配学習シナリオの簡単な修正により,その計算効率が大幅に向上することを示す。
この結果から,ネットワークが事前処理なしでデータから関連構造を学習できることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T11:34:31Z) - Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural
Networks [49.808194368781095]
3層ニューラルネットワークは,2層ネットワークよりも特徴学習能力が豊富であることを示す。
この研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能なメリットを理解するための前進である。
論文 参考訳(メタデータ) (2023-05-11T17:19:30Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Anomaly Detection on Attributed Networks via Contrastive Self-Supervised
Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。
このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。
高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:17:20Z) - Statistical Mechanics of Deep Linear Neural Networks: The
Back-Propagating Renormalization Group [4.56877715768796]
個々の単位の入力出力関数が線形である深線型ニューラルネットワーク(DLNN)における学習の統計力学について検討する。
重み空間における平衡ギブス分布を用いて教師あり学習後のネットワーク特性を正確に解く。
数値シミュレーションにより, 非線形性にもかかわらず, 理論の予測は大部分, 深さの小さいreluネットワークによって共有されていることが明らかとなった。
論文 参考訳(メタデータ) (2020-12-07T20:08:31Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。