論文の概要: Mildly Overparameterized ReLU Networks on Orthogonal Data: Incremental Learning and Implicit Bias
- arxiv url: http://arxiv.org/abs/2605.27097v1
- Date: Tue, 26 May 2026 14:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.266176
- Title: Mildly Overparameterized ReLU Networks on Orthogonal Data: Incremental Learning and Implicit Bias
- Title(参考訳): 直交データに基づく軽度過パラメータReLUネットワーク:インクリメンタルラーニングとインプリシットバイアス
- Authors: James Town, Etienne Boursier, Ben Lewis, Matthias Englert, Ranko Lazic,
- Abstract要約: トレーニングデータを用いた2層ReLUネットワークの勾配流れのダイナミクスについて検討する。
制限流はサドル・アンド・サドル・ジャンプに収束することを示す。
より広範に、我々の研究はReLUネットワークのための漸進的な学習プロセスの最初の厳密な証明を提供する。
- 参考スコア(独自算出の注目度): 11.187895893664484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The successful training of neural networks hinges on the use of first order optimization methods, yet the theoretical characterization of these methods remains incomplete. This is especially true in settings with mild overparameterization. In this work, we study the gradient flow dynamics of two-layer ReLU networks from small initialization with orthogonal training data. We prove the limiting flow converges to a saddle-to-saddle jump process as the initialization scale tends to zero, revealing an incremental learning phenomenon in which a new neuron activates at each saddle. This analysis recovers the known result of Dana et al. (2025, arXiv:2502.16977) that the network interpolates the training data with high probability as soon as $m \gtrsim \log(n)$, where $m$ is the network width and $n$ is the number of training samples. This incremental process characterization also allows us to derive a novel implicit bias result: the learned interpolator has a squared $\ell_2$-norm scaling as $\sqrt{n}$, which is within a constant factor of the minimal $\ell_2$-norm interpolator. More broadly, our work provides the first rigorous proof of an incremental learning process for ReLU networks, whilst suggesting mildly overparameterized networks can converge to interpolating solutions whose complexity is of the same order as that of the optimal interpolator.
- Abstract(参考訳): ニューラルネットワークのトレーニングの成功は、一階最適化法の使用に基づいているが、これらの手法の理論的特徴はいまだ不完全である。
これは特に、軽度なオーバーパラメータ化の設定で当てはまる。
本研究では,直交学習データを用いた小さな初期化から2層ReLUネットワークの勾配流れのダイナミクスについて検討する。
初期化スケールがゼロになるにつれて,制限フローがサドルからサドルへのジャンプ過程に収束することが証明され,新たなニューロンが各サドルで活性化する漸進的な学習現象が明らかとなった。
この分析により、Dana et al (2025, arXiv:2502.16977) の既知の結果が復元され、ネットワークはトレーニングデータを $m \gtrsim \log(n)$ の確率で補間し、$m$ はネットワーク幅、$n$ はトレーニングサンプルの数である。
学習された補間子は、最小の$\ell_2$-norm補間子の定数係数である$\sqrt{n}$として2乗の$\ell_2$-normスケーリングを持つ。
より広範に、我々の研究はReLUネットワークに対する漸進的な学習プロセスの厳密な証明を提供する一方で、わずかにパラメータ化されたネットワークは、最適補間器と同じ順序の複雑性を持つ補間解に収束できることを示唆している。
関連論文リスト
- Optimization and generalization analysis for two-layer physics-informed neural networks without over-parametrization [0.6215404942415159]
本研究は、物理インフォームドニューラルネットワーク(PINN)を用いた最小二乗回帰の解法における勾配降下(SGD)の挙動に焦点を当てる。
ネットワーク幅が$epsilon$と問題のみに依存するしきい値を超えると、トレーニング損失と期待損失は$O(epsilon)$以下になる。
論文 参考訳(メタデータ) (2025-07-22T09:24:22Z) - Sharp Generalization for Nonparametric Regression in Interpolation Space by Over-Parameterized Neural Networks Trained with Preconditioned Gradient Descent and Early Stopping [15.975065054204753]
アルゴリズムによる保証を訓練した過パラメトリック化された2層ニューラルネットワークを用いて,非回帰について検討する。
我々は,早期停止機能を備えた新しいプレコンディショニンググレーディエント・ディフレッシュ(PGD)アルゴリズムを用いてニューラルネットワークをトレーニングすることにより,高い回帰率が得られることを示した。
論文 参考訳(メタデータ) (2024-07-16T03:38:34Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Regularization Matters: A Nonparametric Perspective on Overparametrized
Neural Network [20.132432350255087]
タンジェント降下(GD)によってトレーニングされた過度にパラメータ化されたニューラルネットワークは、任意のトレーニングデータを確実に過度に適合させることができる。
本稿では、過度にパラメータ化されたニューラルネットワークが、ランダムノイズの存在下での真のターゲット関数をいかに回復するかを考察する。
論文 参考訳(メタデータ) (2020-07-06T01:02:23Z) - A Revision of Neural Tangent Kernel-based Approaches for Neural Networks [34.75076385561115]
ニューラルネットワークカーネルを使用して、ネットワークが任意の有限トレーニングサンプルに完全に適合できることを示す。
単純で解析的なカーネル関数は、完全に訓練されたネットワークと同等のものとして導出された。
より厳密な分析により,スケーリングの問題が解決され,元のNTKに基づく結果の検証が可能となった。
論文 参考訳(メタデータ) (2020-07-02T05:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。