論文の概要: Do Neural Networks Need Gradient Descent to Generalize? A Theoretical Study
- arxiv url: http://arxiv.org/abs/2506.03931v1
- Date: Wed, 04 Jun 2025 13:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.350476
- Title: Do Neural Networks Need Gradient Descent to Generalize? A Theoretical Study
- Title(参考訳): ニューラルネットワークは一般化するためにグラディエントDescentを必要とするか?理論的研究
- Authors: Yotam Alexander, Yonatan Slutzky, Yuval Ran-Milo, Nadav Cohen,
- Abstract要約: 広帯域・深層ニューラルネットワークにおける体積仮説の有効性について検討する。
Guess & Check による一般化は,G&C が勾配降下に対して確実に劣る最初の事例である我々の知識に対して,その幅の増大とともに低下することを示す。
逆に,G&Cによる一般化は深度の増加とともに向上し,広帯域ネットワークと深帯域ネットワークの対比が著しく向上することを示す。
- 参考スコア(独自算出の注目度): 7.823526894538709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional wisdom attributes the mysterious generalization abilities of overparameterized neural networks to gradient descent (and its variants). The recent volume hypothesis challenges this view: it posits that these generalization abilities persist even when gradient descent is replaced by Guess & Check (G&C), i.e., by drawing weight settings until one that fits the training data is found. The validity of the volume hypothesis for wide and deep neural networks remains an open question. In this paper, we theoretically investigate this question for matrix factorization (with linear and non-linear activation)--a common testbed in neural network theory. We first prove that generalization under G&C deteriorates with increasing width, establishing what is, to our knowledge, the first case where G&C is provably inferior to gradient descent. Conversely, we prove that generalization under G&C improves with increasing depth, revealing a stark contrast between wide and deep networks, which we further validate empirically. These findings suggest that even in simple settings, there may not be a simple answer to the question of whether neural networks need gradient descent to generalize well.
- Abstract(参考訳): 従来の知恵は、過パラメータ化されたニューラルネットワークの神秘的な一般化能力が勾配降下(およびその変種)に寄与している。
最近のボリューム仮説では、これらの一般化能力は、勾配降下がギース・アンド・チェック(G&C)に置き換えられたとしても持続する、すなわち、トレーニングデータに適合するものが見つかるまでウェイト・セッティングを描画することで、この見解に異議を唱えている。
広帯域・深層ニューラルネットワークに対する体積仮説の妥当性は未解決の問題である。
本稿では,ニューラルネットワーク理論における一般的なテストベッドである行列分解(線形および非線形活性化)の問題について理論的に検討する。
我々はまず、G&C の一般化が幅の増大とともに悪化し、我々の知識により G&C が勾配勾配よりも確実に劣る最初の事例となることを証明した。
逆に,G&Cによる一般化は深度の増加とともに向上し,広帯域ネットワークと深帯域ネットワークの対比が著しくなり,さらに実験的に検証する。
これらの結果は、単純な設定であっても、ニューラルネットワークが一般化するために勾配降下を必要とするかどうかという疑問に対する単純な答えは存在しないことを示唆している。
関連論文リスト
- Deep Grokking: Would Deep Neural Networks Generalize Better? [51.24007462968805]
グロキング(Grokking)とは、テストセットにおけるネットワークの一般化精度の急激な上昇を指す。
深層ニューラルネットワークは、浅いものよりもグラッキングの影響を受けやすいことがわかりました。
また,モデル深度を増大させると,興味深い多段階一般化現象が観測される。
論文 参考訳(メタデータ) (2024-05-29T19:05:11Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree
Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。
我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。
本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:06:01Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - On the optimization and generalization of overparameterized implicit
neural networks [25.237054775800164]
機械学習コミュニティでは、暗黙のニューラルネットワークがますます魅力的になっている。
暗黙の層のみを訓練しても,グローバル収束が保証されることを示す。
本稿では,暗黙的ニューラルネットワークの一般化誤差について検討する。
論文 参考訳(メタデータ) (2022-09-30T16:19:46Z) - A global convergence theory for deep ReLU implicit networks via
over-parameterization [26.19122384935622]
暗黙の深層学習は近年注目を集めている。
本稿では,Rectified Linear Unit (ReLU) 活性化暗黙的ニューラルネットワークの勾配流れを解析する。
論文 参考訳(メタデータ) (2021-10-11T23:22:50Z) - On the Implicit Biases of Architecture & Gradient Descent [46.34988166338264]
本稿では、トレーニングデータに適合する典型的なネットワークは、既にかなり一般化されているが、勾配降下は、大きなマージンを持つネットワークを選択することにより、さらに一般化を向上させることができることを見出した。
新しい技術ツールは、アーキテクチャの暗黙のバイアスと勾配降下の両方を含む一般化の微妙なポートレートを示唆している。
論文 参考訳(メタデータ) (2021-10-08T17:36:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。