論文の概要: Phase Transitions between Accuracy Regimes in L2 regularized Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2505.06597v2
- Date: Wed, 27 Aug 2025 21:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 13:55:31.145514
- Title: Phase Transitions between Accuracy Regimes in L2 regularized Deep Neural Networks
- Title(参考訳): L2正規化ディープニューラルネットワークにおける精度レジーム間の相転移
- Authors: Ibrahim Talha Ersoy, Karoline Wiesner,
- Abstract要約: ディープニューラルネットワーク(DNN)のL2正規化が増加すると、第1次位相遷移がアンダーパラメトリゼーションフェーズに遷移する。
我々は,データの複雑性が増大するにつれて新たな遷移点を予測し,相転移の理論に従って効果の存在を予測する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Increasing the L2 regularization of Deep Neural Networks (DNNs) causes a first-order phase transition into the under-parametrized phase -- the so-called onset-of learning. We explain this transition via the scalar (Ricci) curvature of the error landscape. We predict new transition points as the data complexity is increased and, in accordance with the theory of phase transitions, the existence of hysteresis effects. We confirm both predictions numerically. Our results provide a natural explanation of the recently discovered phenomenon of '\emph{grokking}' as DNN models getting stuck in a local minimum of the error surface, corresponding to a lower accuracy phase. Our work paves the way for new probing methods of the intrinsic structure of DNNs in and beyond the L2 context.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)のL2正規化の増加は、いわゆるオンセットオブラーニング(onset-of learning)という、過度なパラメータ化フェーズへの1次フェーズ移行を引き起こす。
この遷移は、誤差ランドスケープのスカラー(リッチ)曲率によって説明される。
我々は,データの複雑性が増大するにつれて新たな遷移点を予測し,位相遷移の理論に従ってヒステリシス効果の存在を予測した。
どちらの予測も数値的に確認する。
この結果は,DNNモデルが誤差面の局所的な最小値に留まり,より精度の低い位相に対応することから,最近発見された '\emph{grokking}' 現象の自然な説明を提供する。
我々の研究は、L2コンテキスト内外におけるDNNの内在的構造の新しい探索方法の道を開くものである。
関連論文リスト
- Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - New Evidence of the Two-Phase Learning Dynamics of Neural Networks [59.55028392232715]
時間ウィンドウ全体にわたってネットワーク状態を比較するインターバルワイズ・パースペクティブを導入する。
摂動に対するネットワークの応答はカオスから安定への移行を示す。
また、この遷移点の後に、モデルの関数軌道は狭い円錐形の部分集合に制限される。
論文 参考訳(メタデータ) (2025-05-20T04:03:52Z) - Phase Transitions in Large Language Models and the $O(N)$ Model [0.0]
我々はTransformerアーキテクチャを$O(N)$モデルとして再構成し,大規模言語モデルにおける位相遷移について検討した。
本研究は,テキスト生成に使用される温度に対応する相転移を2つ明らかにした。
アプリケーションとして、$O(N)$モデルのエネルギーを用いて、LLMのパラメータがトレーニングデータを学ぶのに十分かどうかを評価することができる。
論文 参考訳(メタデータ) (2025-01-27T17:36:06Z) - On the Emergence of Cross-Task Linearity in the Pretraining-Finetuning Paradigm [47.55215041326702]
我々は、共通の事前訓練されたチェックポイントから、クロスタスク線形性(CTL)と呼ばれる異なるタスクに微調整されたモデルにおいて、興味深い線形現象を発見する。
2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形性にほぼ等しいことが示される。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは、パラメータ空間から特徴空間への写像である線形写像として概ね機能する。
論文 参考訳(メタデータ) (2024-02-06T03:28:36Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - An Adaptive and Stability-Promoting Layerwise Training Approach for Sparse Deep Neural Network Architecture [0.0]
この研究は、与えられたトレーニングデータセットに対してうまく一般化するディープニューラルネットワーク(DNN)アーキテクチャを開発するための2段階適応フレームワークを提案する。
第1段階では、新しいレイヤを毎回追加し、前のレイヤでパラメータを凍結することで独立してトレーニングする、レイヤワイズトレーニングアプローチが採用されている。
本稿では, 学習アルゴリズムの望ましい特性として, エプシロン・デルタ安定促進の概念を導入し, 多様体正規化を用いることで, エプシロン・デルタ安定促進アルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-13T09:51:16Z) - Mixed Graph Contrastive Network for Semi-Supervised Node Classification [63.924129159538076]
我々はMixed Graph Contrastive Network(MGCN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
本研究では,非摂動増強戦略と相関還元機構により,潜伏埋め込みの識別能力を向上する。
これら2つの設定を組み合わせることで、識別表現学習のために、豊富なノードと稀に価値あるラベル付きノードの両方から、豊富な監視情報を抽出する。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - Exact Phase Transitions in Deep Learning [5.33024001730262]
トレーニング損失における予測誤差とモデル複雑性の競合は,1つの隠蔽層をもつネットの2次位相遷移と,複数の隠蔽層を持つネットの1次位相遷移につながることを証明した。
提案理論はニューラルネットワークの最適化に直接関係しており,ベイズ深層学習における後部崩壊問題の起源を指摘する。
論文 参考訳(メタデータ) (2022-05-25T06:00:34Z) - Phase diagram of Stochastic Gradient Descent in high-dimensional
two-layer neural networks [22.823904789355495]
本研究では, 平均流体力学系とサード・アンド・ソルラのセミナルアプローチの関連について検討する。
我々の研究は、統計物理学から高次元の速度を決定論的に記述することに基づいている。
論文 参考訳(メタデータ) (2022-02-01T09:45:07Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Phase diagram for two-layer ReLU neural networks at infinite-width limit [6.380166265263755]
我々は、2層ReLUニューラルネットワークの位相図を無限幅極限で描画する。
位相図の3つのレギュレーション、すなわち線形レギュレーション、臨界レギュレーション、凝縮レギュレーションを同定する。
線形状態においては、NNトレーニングダイナミクスは指数的損失減衰を持つランダム特徴モデルとほぼ同様の線形である。
凝縮状態において、能動ニューロンがいくつかの異なる向きで凝縮されていることを示す実験を通して、我々は実験を行う。
論文 参考訳(メタデータ) (2020-07-15T06:04:35Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。