論文の概要: Optimal scaling laws in learning hierarchical multi-index models
- arxiv url: http://arxiv.org/abs/2602.05846v1
- Date: Thu, 05 Feb 2026 16:33:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.040867
- Title: Optimal scaling laws in learning hierarchical multi-index models
- Title(参考訳): 階層型マルチインデックスモデル学習における最適スケーリング則
- Authors: Leonardo Defilippis, Florent Krzakala, Bruno Loureiro, Antoine Maillard,
- Abstract要約: 我々は、部分空間の回復と予測誤差に関する正確な情報理論スケーリング法則を導出する。
これらの最適速度は、単純で目標に依存しないスペクトル推定器によって達成されることを示す。
- 参考スコア(独自算出の注目度): 28.495611422425238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we provide a sharp theory of scaling laws for two-layer neural networks trained on a class of hierarchical multi-index targets, in a genuinely representation-limited regime. We derive exact information-theoretic scaling laws for subspace recovery and prediction error, revealing how the hierarchical features of the target are sequentially learned through a cascade of phase transitions. We further show that these optimal rates are achieved by a simple, target-agnostic spectral estimator, which can be interpreted as the small learning-rate limit of gradient descent on the first-layer weights. Once an adapted representation is identified, the readout can be learned statistically optimally, using an efficient procedure. As a consequence, we provide a unified and rigorous explanation of scaling laws, plateau phenomena, and spectral structure in shallow neural networks trained on such hierarchical targets.
- Abstract(参考訳): 本研究では、階層型マルチインデックスターゲットのクラスで訓練された2層ニューラルネットワークに対して、真に表現制限された状態下でのスケーリング法則の急激な理論を提供する。
サブスペースリカバリと予測誤差に関する正確な情報理論スケーリング法則を導出し,位相遷移のカスケードを通じてターゲットの階層的特徴がどのように逐次的に学習されるかを明らかにする。
さらに、これらの最適速度は、第1層重みの勾配勾配の学習速度制限として解釈できる、単純で目標に依存しないスペクトル推定器によって達成されることを示す。
適応表現が特定されると、効率的な手順を用いて統計的に読み出しを最適に学習することができる。
その結果, 浅層ニューラルネットワークにおけるスケーリング法則, プラトー現象, スペクトル構造について, 統一的で厳密な説明が得られた。
関連論文リスト
- Scaling Laws and Spectra of Shallow Neural Networks in the Feature Learning Regime [34.77547342230355]
本稿では,特徴学習体制における2次ニューラルネットワークと対角ニューラルネットワークのスケーリング法則を体系的に解析する。
我々は, 余剰リスクのスケーリング指数を, 試料の複雑さと重量減衰の関数として, 詳細な位相図を導出した。
重みスペクトルにおけるパワーローテールの出現とネットワーク一般化性能を結合した最近の経験的観測の理論的検証を行う。
論文 参考訳(メタデータ) (2025-09-29T14:58:13Z) - Towards the Training of Deeper Predictive Coding Neural Networks [44.14001498773255]
予測符号化ネットワーク(英: Predictive coding network)は、反復エネルギー最小化プロセスを通じて推論を行うニューラルネットワークである。
浅いアーキテクチャでは有効だが、5層から7層に留まらず、パフォーマンスが著しく低下する。
この劣化は,重み付け更新時の層間エラーの指数的不均衡と,より深い層内の更新を導くのに有効でない前の層からの予測が原因であることを示す。
論文 参考訳(メタデータ) (2025-06-30T12:44:47Z) - Approximating Latent Manifolds in Neural Networks via Vanishing Ideals [20.464009622419766]
我々は, 無限イデアルがディープネットワークの潜在多様体をいかに特徴付けるかを示すことによって, 多様体学習と計算代数学の関連性を確立する。
本稿では,中間層で事前学習されたネットワークを切断し,消滅するイデアルのジェネレータを介して各クラス多様体を近似するニューラルアーキテクチャを提案する。
得られたモデルは、トレーニング済みのベースラインよりも著しく少ないが、同等の精度を維持し、高いスループットを実現し、パラメータが少ない。
論文 参考訳(メタデータ) (2025-02-20T21:23:02Z) - On Excess Risk Convergence Rates of Neural Network Classifiers [8.329456268842227]
本稿では,ニューラルネットワークを用いた2値分類におけるプラグイン分類器の性能を,その過大なリスクによって測定した。
ニューラルネットワークの推定と近似特性を分析し,次元自由で均一な収束率を求める。
論文 参考訳(メタデータ) (2023-09-26T17:14:10Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - An Adaptive and Stability-Promoting Layerwise Training Approach for Sparse Deep Neural Network Architecture [0.0]
この研究は、与えられたトレーニングデータセットに対してうまく一般化するディープニューラルネットワーク(DNN)アーキテクチャを開発するための2段階適応フレームワークを提案する。
第1段階では、新しいレイヤを毎回追加し、前のレイヤでパラメータを凍結することで独立してトレーニングする、レイヤワイズトレーニングアプローチが採用されている。
本稿では, 学習アルゴリズムの望ましい特性として, エプシロン・デルタ安定促進の概念を導入し, 多様体正規化を用いることで, エプシロン・デルタ安定促進アルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-13T09:51:16Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Proxy Convexity: A Unified Framework for the Analysis of Neural Networks
Trained by Gradient Descent [95.94432031144716]
学習ネットワークの分析のための統合された非最適化フレームワークを提案する。
既存の保証は勾配降下により統一することができることを示す。
論文 参考訳(メタデータ) (2021-06-25T17:45:00Z) - Deep Networks from the Principle of Rate Reduction [32.87280757001462]
この研究は、レート還元と(シフト)不変分類の原理から、現代のディープ(畳み込み)ネットワークを解釈しようとする。
学習した特徴量の減少率を最適化するための基本的反復的漸進勾配法が,多層深層ネットワーク,すなわち1層1回を自然に導くことを示す。
この「ホワイトボックス」ネットワークの全てのコンポーネントは正確な最適化、統計学、幾何学的解釈を持っている。
論文 参考訳(メタデータ) (2020-10-27T06:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。