論文の概要: How Does the ReLU Activation Affect the Implicit Bias of Gradient Descent on High-dimensional Neural Network Regression?
- arxiv url: http://arxiv.org/abs/2603.04895v1
- Date: Thu, 05 Mar 2026 07:36:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.120389
- Title: How Does the ReLU Activation Affect the Implicit Bias of Gradient Descent on High-dimensional Neural Network Regression?
- Title(参考訳): 高次元ニューラルネットワークの回帰に及ぼすReLU活性化の影響
- Authors: Kuo-Wei Lai, Guanghui Wang, Molei Tao, Vidya Muthukumar,
- Abstract要約: 本稿では,高次元のランダムな特徴に対する2乗損失を伴う浅部ReLUモデルのトレーニングにおいて,勾配降下(GD)の暗黙バイアスを特徴付ける。
この2つの極性の間に補間を行い、十分に高次元のランダムなデータに対して、暗黙の偏差は高い確率で最小l2-ノルム解に近似することを示した。
- 参考スコア(独自算出の注目度): 27.523011286375947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overparameterized ML models, including neural networks, typically induce underdetermined training objectives with multiple global minima. The implicit bias refers to the limiting global minimum that is attained by a common optimization algorithm, such as gradient descent (GD). In this paper, we characterize the implicit bias of GD for training a shallow ReLU model with the squared loss on high-dimensional random features. Prior work showed that the implicit bias does not exist in the worst-case (Vardi and Shamir, 2021), or corresponds exactly to the minimum-l2-norm solution among all global minima under exactly orthogonal data (Boursier et al., 2022). Our work interpolates between these two extremes and shows that, for sufficiently high-dimensional random data, the implicit bias approximates the minimum-l2-norm solution with high probability with a gap on the order $Θ(\sqrt{n/d})$, where n is the number of training examples and d is the feature dimension. Our results are obtained through a novel primal-dual analysis, which carefully tracks the evolution of predictions, data-span coefficients, as well as their interactions, and shows that the ReLU activation pattern quickly stabilizes with high probability over the random data.
- Abstract(参考訳): ニューラルネットワークを含む過度にパラメータ化されたMLモデルは、通常、複数のグローバルミニマで未決定のトレーニング目標を誘導する。
暗黙のバイアスは、勾配降下(GD)のような共通の最適化アルゴリズムによって達成される制限された大域的最小値を指す。
本稿では,高次元のランダムな特徴に対する2乗損失を伴う浅部ReLUモデルの学習におけるGDの暗黙バイアスを特徴付ける。
以前の研究は、暗黙の偏見が最悪の場合(Vardi and Shamir, 2021)に存在しないことを示したり、正確に直交データの下でのすべての大域ミニマの最小l2-ノルム解と正確に一致する(Boursier et al , 2022)。
我々の研究はこれらの二つの極小を補間し、十分に高次元のランダムなデータに対して、暗黙の偏見は極小l2-ノルム解に高い確率で近似し、位数$(\sqrt{n/d})$の差は n が訓練例の数であり、d が特徴次元であることを示す。
この結果は,予測,データスパン係数,およびそれらの相互作用の進化を注意深く追跡し,ReLUの活性化パターンが乱数データに対する高い確率で迅速に安定化することを示す,新しい原始双対解析によって得られた。
関連論文リスト
- Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback [50.89125374999765]
NLHFにおける最適乗算重み更新(mathtOMWU$)に対する最初の収束保証を提供する。
本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増大する新たな限界収束挙動を同定する。
論文 参考訳(メタデータ) (2025-12-31T12:08:29Z) - Stable Minima of ReLU Neural Networks Suffer from the Curse of Dimensionality: The Neural Shattering Phenomenon [25.998397575754865]
平坦さ/低(ロス)曲率の暗黙バイアスとそのReLUネットワークの一般化への影響について検討する。
平坦性は一般化を示唆するが, 入力次元が大きくなるにつれて収束速度は指数関数的に低下する。
論文 参考訳(メタデータ) (2025-06-25T19:10:03Z) - Deep learning from strongly mixing observations: Sparse-penalized regularization and minimax optimality [0.0]
ディープニューラルネットワーク予測器のスパースペナル化正規化について検討する。
正方形と幅広い損失関数を扱う。
論文 参考訳(メタデータ) (2024-06-12T15:21:51Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Beyond Ridge Regression for Distribution-Free Data [8.523307608620094]
正規化最大可能性 (pNML) は、データ上に分布の仮定が作成されない分布自由設定に対する min-max 後悔解として提案されている。
仮説クラスに事前のような関数を適用することで、その有効サイズが減少する。
尾根回帰経験的リスク最小化器(Ridge ERM)によるLpNML予測と関連するpNML
我々のLpNMLは、PMLB集合のリッジERM誤差を最大20%低減し、
論文 参考訳(メタデータ) (2022-06-17T13:16:46Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Binary Classification of Gaussian Mixtures: Abundance of Support
Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。
後者の分類誤差に関する新しい非漸近境界を導出する。
この結果は, 確率が一定である雑音モデルに拡張される。
論文 参考訳(メタデータ) (2020-11-18T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。