論文の概要: Provable Generalization in Overparameterized Neural Nets
- arxiv url: http://arxiv.org/abs/2508.17256v1
- Date: Sun, 24 Aug 2025 08:46:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.428957
- Title: Provable Generalization in Overparameterized Neural Nets
- Title(参考訳): 過度パラメータ化されたニューラルネットにおける確率的一般化
- Authors: Aviral Dhingra,
- Abstract要約: ディープニューラルネットワークは、トレーニング例よりもはるかに多くのパラメータを含むことが多いが、実際には十分に一般化されている。
注意行列の有効ランクに基づいて、注意ベースモデルに対するキャパシティの代替概念について検討する。
この量は,大規模な言語モデルで観測された経験的スケーリング法則に一致した標本サイズに依存した一般化バウンダリを導出することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks often contain far more parameters than training examples, yet they still manage to generalize well in practice. Classical complexity measures such as VC-dimension or PAC-Bayes bounds usually become vacuous in this overparameterized regime, offering little explanation for the empirical success of models like Transformers. In this work, I explore an alternative notion of capacity for attention-based models, based on the effective rank of their attention matrices. The intuition is that, although the parameter count is enormous, the functional dimensionality of attention is often much lower. I show that this quantity leads to a generalization bound whose dependence on sample size matches empirical scaling laws observed in large language models, up to logarithmic factors. While the analysis is not a complete theory of overparameterized learning, it provides evidence that spectral properties of attention, rather than raw parameter counts, may be the right lens for understanding why these models generalize.
- Abstract(参考訳): ディープニューラルネットワークは、トレーニング例よりもはるかに多くのパラメータを含むことが多いが、実際にはうまく一般化している。
VC次元やPACベイズ境界のような古典的な複雑さの尺度は、通常、過度にパラメータ化された状態において空白となり、トランスフォーマーのようなモデルが経験的に成功した理由をほとんど説明できない。
本研究では,注目行列の有効ランクに基づいて,注目モデルに対するキャパシティの代替概念について検討する。
直観的には、パラメータ数は非常に大きいが、注意の関数的次元は、しばしばより低い。
この量によって、サンプルサイズへの依存が、大言語モデルで観測された経験的スケーリング法則と対数的因子に一致した一般化バウンダリが導かれることを示す。
この分析は過度パラメータ化学習の完全な理論ではないが、これらのモデルが一般化する理由を理解する上では、生パラメータ数ではなく、注意のスペクトル特性が正しいレンズであることを示す。
関連論文リスト
- The Universality Lens: Why Even Highly Over-Parametrized Models Learn Well [4.2466572124752995]
拡張仮説クラスに先立って,ログロスと(ほとんど)均一なベイズ混合について検討する。
主要な結果は、学習者の後悔は仮説クラス全体のサイズによって決定されないことを示している。
結果は、オンライン、バッチ、教師付き学習設定で広く適用されます。
論文 参考訳(メタデータ) (2025-06-09T11:32:31Z) - Compute-Optimal LLMs Provably Generalize Better With Scale [102.29926217670926]
我々は,大規模言語モデル(LLM)の事前学習目標に基づく一般化境界を開発する。
損失関数の分散を考慮し, 既存の境界を緩める, 完全経験的フリードマン型マルティンゲール濃度を導入する。
我々は一般化ギャップのスケーリング法則を作成し、その境界はスケールによって予測的に強くなる。
論文 参考訳(メタデータ) (2025-04-21T16:26:56Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Bandwidth Enables Generalization in Quantum Kernel Models [16.940180366663903]
近年の研究では、量子モデルの一般化は、量子特徴空間の指数的サイズによって妨げられていることが示されている。
帯域幅の変化は,任意の対象関数への一般化が不可能なモデルから,適切に整合した目標に対する適切な一般化へと導かれることを示す。
論文 参考訳(メタデータ) (2022-06-14T08:41:08Z) - More Than a Toy: Random Matrix Models Predict How Real-World Neural
Representations Generalize [94.70343385404203]
ほとんどの理論解析は、カーネル回帰においても定性的現象を捉えるには不十分であることがわかった。
古典的GCV推定器は局所確率行列法則が成立するたびに一般化リスクに収束することを示す。
この結果から, ランダム行列理論は, 実際には神経表現の性質を理解する上で重要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-03-11T18:59:01Z) - Benign overfitting in ridge regression [0.0]
過度にパラメータ化されたリッジ回帰に対する漸近的でない一般化境界を提供する。
最小あるいは負の正則化が小さい一般化誤差を得るのに十分であるかどうかを同定する。
論文 参考訳(メタデータ) (2020-09-29T20:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。