論文の概要: Overparametrization bends the landscape: BBP transitions at initialization in simple Neural Networks
- arxiv url: http://arxiv.org/abs/2510.18435v1
- Date: Tue, 21 Oct 2025 09:08:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.227794
- Title: Overparametrization bends the landscape: BBP transitions at initialization in simple Neural Networks
- Title(参考訳): オーバーパラメトリゼーションはランドスケープを曲げる:単純なニューラルネットワークの初期化におけるBBP遷移
- Authors: Brandon Livio Annesi, Dario Bocchi, Chiara Cammarota,
- Abstract要約: 高次元の非学習損失は、機械学習の理論において中心的な役割を果たす。
我々は、ヘッセンの開始時のスペクトルを分析し、レシエーションを分離するデータの量におけるベイク・ベン・オーラス・パラムチエ(Baik-Ben Arous-param'ech'e, BBP)遷移を同定する。
- 参考スコア(独自算出の注目度): 0.11666234644810891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-dimensional non-convex loss landscapes play a central role in the theory of Machine Learning. Gaining insight into how these landscapes interact with gradient-based optimization methods, even in relatively simple models, can shed light on this enigmatic feature of neural networks. In this work, we will focus on a prototypical simple learning problem, which generalizes the Phase Retrieval inference problem by allowing the exploration of overparametrized settings. Using techniques from field theory, we analyze the spectrum of the Hessian at initialization and identify a Baik-Ben Arous-P\'ech\'e (BBP) transition in the amount of data that separates regimes where the initialization is informative or uninformative about a planted signal of a teacher-student setup. Crucially, we demonstrate how overparameterization can bend the loss landscape, shifting the transition point, even reaching the information-theoretic weak-recovery threshold in the large overparameterization limit, while also altering its qualitative nature. We distinguish between continuous and discontinuous BBP transitions and support our analytical predictions with simulations, examining how they compare to the finite-N behavior. In the case of discontinuous BBP transitions strong finite-N corrections allow the retrieval of information at a signal-to-noise ratio (SNR) smaller than the predicted BBP transition. In these cases we provide estimates for a new lower SNR threshold that marks the point at which initialization becomes entirely uninformative.
- Abstract(参考訳): 高次元非凸ロスランドスケープは機械学習理論において中心的な役割を果たす。
これらの風景が勾配に基づく最適化手法とどのように相互作用するかについて、比較的単純なモデルであっても、ニューラルネットワークのこの謎めいた特徴に光を当てることができる。
本稿では,過度なパラメータ設定の探索を可能にすることで,位相検索推論問題を一般化する,原型的単純学習問題に焦点をあてる。
フィールド理論の手法を用いて,初期化時のHessianスペクトルを分析し,初期化が情報的あるいは非形式的である状況と教師学生が設定した信号とを区別するデータ量におけるBaik-Ben Arous-P\'ech\'e(BBP)遷移を同定する。
重要なことは、過度パラメータ化が損失景観を曲げ、遷移点をシフトさせ、大きな過度パラメータ化限界における情報理論的弱回復しきい値まで到達し、またその定性的性質を変化させることである。
連続BBP遷移と不連続BBP遷移を区別し,シミュレーションによる解析的予測をサポートし,有限N挙動との比較を行った。
不連続なBBP遷移の場合、強い有限N補正により、予測されたBBP遷移よりも小さい信号対雑音比(SNR)での情報の検索が可能になる。
これらの場合、初期化が完全に非形式化される点を示す新しい低いSNRしきい値に対する推定を提供する。
関連論文リスト
- Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - Geometric Neural Process Fields [58.77241763774756]
幾何学的ニューラル・プロセス・フィールド(Geometric Neural Process Fields, G-NPF)は、ニューラル・ラディアンス・フィールドの確率的フレームワークである。
これらの基盤の上に構築された階層型潜在変数モデルにより、G-NPFは複数の空間レベルにまたがる構造情報を統合できる。
3次元シーンと2次元画像と1次元信号レグレッションの新規ビュー合成実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-02-04T14:17:18Z) - In Search of a Data Transformation That Accelerates Neural Field Training [37.39915075581319]
画素位置の置換がSGDの収束速度にどのように影響するかに焦点をあてる。
対して、画素位置をランダムに変化させることで、トレーニングをかなり加速させることができる。
解析の結果、ランダムなピクセル置換は、初期最適化の妨げとなるが、信号の細部を捉えやすいパターンを取り除くことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T06:17:49Z) - PRISTA-Net: Deep Iterative Shrinkage Thresholding Network for Coded
Diffraction Patterns Phase Retrieval [6.982256124089]
位相検索は、計算画像および画像処理における非線型逆問題である。
我々は,1次反復しきい値しきい値アルゴリズム(ISTA)に基づく深層展開ネットワークであるPRISTA-Netを開発した。
非線形変換,しきい値,ステップサイズなど,提案するPRISTA-Netフレームワークのパラメータはすべて,設定されるのではなく,エンドツーエンドで学習される。
論文 参考訳(メタデータ) (2023-09-08T07:37:15Z) - On the ISS Property of the Gradient Flow for Single Hidden-Layer Neural
Networks with Linear Activations [0.0]
本研究では,不確かさが勾配推定に及ぼす影響について検討した。
一般の過度にパラメータ化された定式化は、損失関数が最小化される集合の外側に配置されるスプリアス平衡の集合を導入することを示す。
論文 参考訳(メタデータ) (2023-05-17T02:26:34Z) - Holomorphic Equilibrium Propagation Computes Exact Gradients Through
Finite Size Oscillations [5.279475826661643]
平衡伝播(Equilibrium propagation、EP)は、深層ニューラルネットワークの局所学習規則によるトレーニングを可能にするバックプロパゲーション(BP)の代替である。
この拡張が有限振幅の教示信号に対しても自然に正確な勾配をもたらすことを示す。
我々は、ImageNet 32x32データセット上でEPの最初のベンチマークを確立し、BPでトレーニングされた等価ネットワークの性能と一致することを示す。
論文 参考訳(メタデータ) (2022-09-01T15:23:49Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。