論文の概要: Stable Minima of ReLU Neural Networks Suffer from the Curse of Dimensionality: The Neural Shattering Phenomenon
- arxiv url: http://arxiv.org/abs/2506.20779v1
- Date: Wed, 25 Jun 2025 19:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.860717
- Title: Stable Minima of ReLU Neural Networks Suffer from the Curse of Dimensionality: The Neural Shattering Phenomenon
- Title(参考訳): 次元曲線から得られるReLUニューラルネットワークの安定最小値:ニューラルシャッター現象
- Authors: Tongtong Liang, Dan Qiao, Yu-Xiang Wang, Rahul Parhi,
- Abstract要約: 平坦さ/低(ロス)曲率の暗黙バイアスとそのReLUネットワークの一般化への影響について検討する。
平坦性は一般化を示唆するが, 入力次元が大きくなるにつれて収束速度は指数関数的に低下する。
- 参考スコア(独自算出の注目度): 22.29950158991071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the implicit bias of flatness / low (loss) curvature and its effects on generalization in two-layer overparameterized ReLU networks with multivariate inputs -- a problem well motivated by the minima stability and edge-of-stability phenomena in gradient-descent training. Existing work either requires interpolation or focuses only on univariate inputs. This paper presents new and somewhat surprising theoretical results for multivariate inputs. On two natural settings (1) generalization gap for flat solutions, and (2) mean-squared error (MSE) in nonparametric function estimation by stable minima, we prove upper and lower bounds, which establish that while flatness does imply generalization, the resulting rates of convergence necessarily deteriorate exponentially as the input dimension grows. This gives an exponential separation between the flat solutions vis-\`a-vis low-norm solutions (i.e., weight decay), which knowingly do not suffer from the curse of dimensionality. In particular, our minimax lower bound construction, based on a novel packing argument with boundary-localized ReLU neurons, reveals how flat solutions can exploit a kind of ''neural shattering'' where neurons rarely activate, but with high weight magnitudes. This leads to poor performance in high dimensions. We corroborate these theoretical findings with extensive numerical simulations. To the best of our knowledge, our analysis provides the first systematic explanation for why flat minima may fail to generalize in high dimensions.
- Abstract(参考訳): 多変量入力を持つ2層オーバーパラメータ化ReLUネットワークにおける平坦さ/低(ロス)曲率の暗黙バイアスとその一般化への影響について検討する。
既存の作業は補間を必要とするか、単変量入力のみに焦点を当てる。
本稿では,多変量入力に対する新しい,やや驚くべき理論的結果を示す。
2つの自然な設定(1) 平坦解に対する一般化ギャップ、(2) 安定最小値による非パラメトリック関数推定における平均二乗誤差(MSE)は、平坦性は一般化を暗示するが、結果として得られる収束率は、入力次元が大きくなるにつれて指数関数的に減少する。
これにより、平らな解 vis-\`a-vis 低ノルム解(すなわち、重みの崩壊)の間の指数関数的な分離が、故意に次元の呪いに苦しめられることはない。
特に、境界局所化されたReLUニューロンとの新たなパッキング議論に基づいて、我々のミニマックス低境界構造は、平坦な解がニューロンが滅多に活性化しないような「神経破壊」をいかに活用できるかを明らかにしている。
これは高い次元におけるパフォーマンスの低下につながります。
我々はこれらの理論的な知見を広範な数値シミュレーションで裏付ける。
我々の知識を最大限に活用するために、我々の分析は、なぜ平坦なミニマが高次元で一般化できないのかという最初の体系的な説明を提供する。
関連論文リスト
- Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Typical and atypical solutions in non-convex neural networks with
discrete and continuous weights [2.7127628066830414]
ランダムな規則や関連を学習する単純な非拘束型ネットワークモデルとして、二項および連続負マージンパーセプトロンについて検討する。
どちらのモデルも、非常に平坦で幅の広い劣支配的な最小化器を示す。
両モデルにおいて、学習装置としての一般化性能は、広い平坦な最小化器の存在により大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-04-26T23:34:40Z) - On the Omnipresence of Spurious Local Minima in Certain Neural Network
Training Problems [0.0]
本研究では,1次元実出力を持つ深層ニューラルネットワークにおける学習課題の損失状況について検討する。
このような問題は、アフィンでないすべての対象函数に対して、刺激的(すなわち、大域的最適ではない)局所ミニマの連続体を持つことが示されている。
論文 参考訳(メタデータ) (2022-02-23T14:41:54Z) - Message Passing Neural PDE Solvers [60.77761603258397]
我々は、バックプロップ最適化されたニューラル関数近似器で、グラフのアリーデザインのコンポーネントを置き換えるニューラルメッセージパッシング解決器を構築した。
本稿では, 有限差分, 有限体積, WENOスキームなどの古典的手法を表現的に含んでいることを示す。
本研究では, 異なる領域のトポロジ, 方程式パラメータ, 離散化などにおける高速, 安定, 高精度な性能を, 1次元, 2次元で検証する。
論文 参考訳(メタデータ) (2022-02-07T17:47:46Z) - Unveiling the structure of wide flat minima in neural networks [0.46664938579243564]
ディープラーニングは、科学全体にわたるネットワークの応用の可能性を明らかにしている。
ディープラーニングの成功は、科学全体にわたるネットワークの適用可能性を明らかにしている。
論文 参考訳(メタデータ) (2021-07-02T16:04:57Z) - Solving PDEs on Unknown Manifolds with Machine Learning [8.220217498103315]
本稿では,未知多様体上の楕円型PDEを解くためのメッシュフリー計算フレームワークと機械学習理論を提案する。
提案したNNソルバは,新しいデータポイント上の一般化とほぼ同一の誤差を持つ新しいデータポイント上でPDEを強固に一般化できることを示す。
論文 参考訳(メタデータ) (2021-06-12T03:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。