論文の概要: Geometry of Learning -- L2 Phase Transitions in Deep and Shallow Neural Networks
- arxiv url: http://arxiv.org/abs/2505.06597v1
- Date: Sat, 10 May 2025 11:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.93414
- Title: Geometry of Learning -- L2 Phase Transitions in Deep and Shallow Neural Networks
- Title(参考訳): 深部・浅部ニューラルネットワークにおけるL2相転移の幾何学
- Authors: Ibrahim Talha Ersoy, Karoline Wiesner,
- Abstract要約: 本稿では,ロスランドスケープのリッチ曲率とレギュレータ駆動のディープラーニングを統合することで,このような遷移の統一的な枠組みを確立する。
我々の研究は、L2コンテキストを超えたニューラルネットワークの本質的な構造を探索するための、より詳細な正規化戦略と潜在的に新しい方法の道を開く。
- 参考スコア(独自算出の注目度): 0.3683202928838613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When neural networks (NNs) are subject to L2 regularization, increasing the regularization strength beyond a certain threshold pushes the model into an under-parameterization regime. This transition manifests as a first-order phase transition in single-hidden-layer NNs and a second-order phase transition in NNs with two or more hidden layers. This paper establishes a unified framework for such transitions by integrating the Ricci curvature of the loss landscape with regularizer-driven deep learning. First, we show that a curvature change-point separates the model-accuracy regimes in the onset of learning and that it is identical to the critical point of the phase transition driven by regularization. Second, we show that for more complex data sets additional phase transitions exist between model accuracies, and that they are again identical to curvature change points in the error landscape. Third, by studying the MNIST data set using a Variational Autoencoder, we demonstrate that the curvature change points identify phase transitions in model accuracy outside the L2 setting. Our framework also offers practical insights for optimizing model performance across various architectures and datasets. By linking geometric features of the error landscape to observable phase transitions, our work paves the way for more informed regularization strategies and potentially new methods for probing the intrinsic structure of neural networks beyond the L2 context.
- Abstract(参考訳): ニューラルネットワーク(NN)がL2正規化を受けると、一定のしきい値を超える正規化強度が増大し、モデルがパラメータ下状態に陥る。
この遷移は、単一の隠れた層NNにおける1次相転移と、2つ以上の隠された層を持つNNにおける2次相転移として現れる。
本稿では,ロスランドスケープのリッチ曲率とレギュレータ駆動のディープラーニングを統合することで,このような遷移の統一的な枠組みを確立する。
まず、曲率変化点が学習開始時のモデル精度体制を分離し、正規化によって駆動される相転移の臨界点と同一であることを示す。
第二に、より複雑なデータセットに対して、モデル精度の間に追加の位相遷移が存在し、エラーランドスケープにおける曲率変化点と再び同一であることを示す。
第3に、変分オートエンコーダを用いてMNISTデータセットを解析することにより、曲率変化点がL2設定外におけるモデル精度の位相遷移を識別できることを実証する。
フレームワークはまた、さまざまなアーキテクチャやデータセットにわたるモデルパフォーマンスを最適化するための実用的な洞察を提供する。
エラーランドスケープの幾何学的特徴を観測可能な位相遷移にリンクすることで、我々の研究はより情報のある正規化戦略と、L2コンテキストを超えたニューラルネットワークの本質的な構造を探索するための潜在的に新しい手法の道を開く。
関連論文リスト
- On the Emergence of Cross-Task Linearity in the Pretraining-Finetuning Paradigm [47.55215041326702]
我々は、共通の事前訓練されたチェックポイントから、クロスタスク線形性(CTL)と呼ばれる異なるタスクに微調整されたモデルにおいて、興味深い線形現象を発見する。
2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形性にほぼ等しいことが示される。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは、パラメータ空間から特徴空間への写像である線形写像として概ね機能する。
論文 参考訳(メタデータ) (2024-02-06T03:28:36Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - An Adaptive and Stability-Promoting Layerwise Training Approach for Sparse Deep Neural Network Architecture [0.0]
この研究は、与えられたトレーニングデータセットに対してうまく一般化するディープニューラルネットワーク(DNN)アーキテクチャを開発するための2段階適応フレームワークを提案する。
第1段階では、新しいレイヤを毎回追加し、前のレイヤでパラメータを凍結することで独立してトレーニングする、レイヤワイズトレーニングアプローチが採用されている。
本稿では, 学習アルゴリズムの望ましい特性として, エプシロン・デルタ安定促進の概念を導入し, 多様体正規化を用いることで, エプシロン・デルタ安定促進アルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-13T09:51:16Z) - Mixed Graph Contrastive Network for Semi-Supervised Node Classification [63.924129159538076]
我々はMixed Graph Contrastive Network(MGCN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
本研究では,非摂動増強戦略と相関還元機構により,潜伏埋め込みの識別能力を向上する。
これら2つの設定を組み合わせることで、識別表現学習のために、豊富なノードと稀に価値あるラベル付きノードの両方から、豊富な監視情報を抽出する。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - Exact Phase Transitions in Deep Learning [5.33024001730262]
トレーニング損失における予測誤差とモデル複雑性の競合は,1つの隠蔽層をもつネットの2次位相遷移と,複数の隠蔽層を持つネットの1次位相遷移につながることを証明した。
提案理論はニューラルネットワークの最適化に直接関係しており,ベイズ深層学習における後部崩壊問題の起源を指摘する。
論文 参考訳(メタデータ) (2022-05-25T06:00:34Z) - Phase diagram of Stochastic Gradient Descent in high-dimensional
two-layer neural networks [22.823904789355495]
本研究では, 平均流体力学系とサード・アンド・ソルラのセミナルアプローチの関連について検討する。
我々の研究は、統計物理学から高次元の速度を決定論的に記述することに基づいている。
論文 参考訳(メタデータ) (2022-02-01T09:45:07Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Phase diagram for two-layer ReLU neural networks at infinite-width limit [6.380166265263755]
我々は、2層ReLUニューラルネットワークの位相図を無限幅極限で描画する。
位相図の3つのレギュレーション、すなわち線形レギュレーション、臨界レギュレーション、凝縮レギュレーションを同定する。
線形状態においては、NNトレーニングダイナミクスは指数的損失減衰を持つランダム特徴モデルとほぼ同様の線形である。
凝縮状態において、能動ニューロンがいくつかの異なる向きで凝縮されていることを示す実験を通して、我々は実験を行う。
論文 参考訳(メタデータ) (2020-07-15T06:04:35Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。