論文の概要: Generalization at the Edge of Stability
- arxiv url: http://arxiv.org/abs/2604.19740v1
- Date: Tue, 21 Apr 2026 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.918799
- Title: Generalization at the Edge of Stability
- Title(参考訳): 安定性の端における一般化
- Authors: Mario Tuci, Caner Korkmaz, Umut Şimşekli, Tolga Birdal,
- Abstract要約: 現代のニューラルネットワークのトレーニングは、しばしば大きな学習率に依存し、安定性の端で動作します。
経験的に、この体制はしばしば一般化の改善をもたらすが、根底にあるメカニズムはよく理解されていない。
- 参考スコア(独自算出の注目度): 19.235085742973418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training modern neural networks often relies on large learning rates, operating at the edge of stability, where the optimization dynamics exhibit oscillatory and chaotic behavior. Empirically, this regime often yields improved generalization performance, yet the underlying mechanism remains poorly understood. In this work, we represent stochastic optimizers as random dynamical systems, which often converge to a fractal attractor set (rather than a point) with a smaller intrinsic dimension. Building on this connection and inspired by Lyapunov dimension theory, we introduce a novel notion of dimension, coined the `sharpness dimension', and prove a generalization bound based on this dimension. Our results show that generalization in the chaotic regime depends on the complete Hessian spectrum and the structure of its partial determinants, highlighting a complexity that cannot be captured by the trace or spectral norm considered in prior work. Experiments across various MLPs and transformers validate our theory while also providing new insights into the recently observed phenomenon of grokking.
- Abstract(参考訳): 現代のニューラルネットワークのトレーニングは、しばしば大きな学習率に依存し、安定性の端で動作し、最適化ダイナミクスは振動とカオスの振る舞いを示す。
経験的には、この体制はしばしば一般化性能の改善をもたらすが、基礎となるメカニズムはいまだによく理解されていない。
本研究では、確率最適化器をランダムな力学系として表現し、より小さな内在次元を持つフラクタル引力集合(点ではなく)に収束する。
この接続の上に構築され、リャプノフ次元理論にインスパイアされた我々は、「シャープネス次元」という新しい次元の概念を導入し、この次元に基づいて有界な一般化を証明した。
以上の結果から,カオス状態の一般化はヘッセンスペクトルとその部分的行列式の構造に依存しており,従来の研究で考慮されたトレースやスペクトルノルムでは達成できない複雑さを浮き彫りにしている。
様々なMLPやトランスフォーマーを用いた実験は、我々の理論を検証しつつ、最近観測されたグラッキング現象に関する新たな洞察を与えている。
関連論文リスト
- The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization [57.37943479039033]
本研究では,勾配降下における安定性現象によって引き起こされる暗黙の正則化に,アーキテクチャ的帰納バイアスがどう影響するかを考察する。
局所性と重量共有が根本的に変化していることが示されています。
論文 参考訳(メタデータ) (2026-03-05T04:50:51Z) - KoopGen: Koopman Generator Networks for Representing and Predicting Dynamical Systems with Continuous Spectra [65.11254608352982]
生成元をベースとしたニューラル・クープマン・フレームワークを導入し,構造的かつ状態に依存したクープマン・ジェネレータの表現を通じて動的にモデル化する。
固有のカルテス分解をスキュー結合および自己結合成分に利用することにより、KoopGenは可逆的な散逸から保守的な輸送を分離する。
論文 参考訳(メタデータ) (2026-02-15T06:32:23Z) - Random-Matrix-Induced Simplicity Bias in Over-parameterized Variational Quantum Circuits [72.0643009153473]
本稿では,観測可能な期待値とパラメータ勾配の両方がシステムサイズに指数関数的に集中するHaar型普遍性クラスに,表現的変分アンサーゼが入ることを示す。
その結果、そのような回路によって誘導される仮説クラスは、近点関数の狭い族に高い確率で崩壊する。
テンソル-ネットワークベースおよびテンソル-ハイパーネットワークパラメータ化を含むテンソル構造VQCは、ハール型普遍性クラスの外にある。
論文 参考訳(メタデータ) (2026-01-05T08:04:33Z) - Diagnosing chaos with projected ensembles of process tensors [0.22499166814992436]
我々は,プロセステンソルの純粋状態のアンサンブルを局所的介入に基づいて導入し,よりきめ細かい量子カオスのプローブを定義する。
エンサンブル内の特徴的な絡み合い構造は、量子力学とエンテンポピーの欠陥を克服し、積分可能力学と急激なカオスを区別することができる。
我々の研究は、相互作用する量子プロセスにおけるカオスの指紋を解明し、ユニタリおよびモニタリングされた多体ダイナミクスを解析するための統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-02-19T18:06:07Z) - Approaching Deep Learning through the Spectral Dynamics of Weights [41.948042468042374]
重みのスペクトル力学 -- 最適化中の特異値とベクトルの振る舞い -- は、ディープラーニングにおけるいくつかの現象を明確にし、統一する。
ConvNetによる画像分類,UNetsによる画像生成,LSTMによる音声認識,Transformersによる言語モデリングなど,さまざまな実験における最適化における一貫したバイアスを同定する。
論文 参考訳(メタデータ) (2024-08-21T17:48:01Z) - Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - PAC-Chernoff Bounds: Understanding Generalization in the Interpolation Regime [6.645111950779666]
本稿では,補間器の完全密度を示す分布依存型PAC-Chernoff境界を提案する。
我々は、ある補間子がなぜ例外的な一般化を示すのかを示す統一的な理論的枠組みを提示する。
論文 参考訳(メタデータ) (2023-06-19T14:07:10Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - On dissipative symplectic integration with applications to
gradient-based optimization [77.34726150561087]
本稿では,離散化を体系的に実現する幾何学的枠組みを提案する。
我々は、シンプレクティックな非保守的、特に散逸的なハミルトン系への一般化が、制御された誤差まで収束率を維持することができることを示す。
論文 参考訳(メタデータ) (2020-04-15T00:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。