論文の概要: The Universality Lens: Why Even Highly Over-Parametrized Models Learn Well
- arxiv url: http://arxiv.org/abs/2506.07661v1
- Date: Mon, 09 Jun 2025 11:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.931438
- Title: The Universality Lens: Why Even Highly Over-Parametrized Models Learn Well
- Title(参考訳): ユニバーシティレンズ:超過度にパラメータ化されたモデルがうまく学べる理由
- Authors: Meir Feder, Ruediger Urbanke, Yaniv Fogel,
- Abstract要約: 拡張仮説クラスに先立って,ログロスと(ほとんど)均一なベイズ混合について検討する。
主要な結果は、学習者の後悔は仮説クラス全体のサイズによって決定されないことを示している。
結果は、オンライン、バッチ、教師付き学習設定で広く適用されます。
- 参考スコア(独自算出の注目度): 4.2466572124752995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental question in modern machine learning is why large, over-parameterized models, such as deep neural networks and transformers, tend to generalize well, even when their number of parameters far exceeds the number of training samples. We investigate this phenomenon through the lens of information theory, grounded in universal learning theory. Specifically, we study a Bayesian mixture learner with log-loss and (almost) uniform prior over an expansive hypothesis class. Our key result shows that the learner's regret is not determined by the overall size of the hypothesis class, but rather by the cumulative probability of all models that are close, in Kullback-Leibler divergence distance, to the true data-generating process. We refer to this cumulative probability as the weight of the hypothesis. This leads to a natural notion of model simplicity: simple models are those with large weight and thus require fewer samples to generalize, while complex models have small weight and need more data. This perspective provides a rigorous and intuitive explanation for why over-parameterized models often avoid overfitting: the presence of simple hypotheses allows the posterior to concentrate on them when supported by the data. We further bridge theory and practice by recalling that stochastic gradient descent with Langevin dynamics samples from the correct posterior distribution, enabling our theoretical learner to be approximated using standard machine learning methods combined with ensemble learning. Our analysis yields non-uniform regret bounds and aligns with key practical concepts such as flat minima and model distillation. The results apply broadly across online, batch, and supervised learning settings, offering a unified and principled understanding of the generalization behavior of modern AI systems.
- Abstract(参考訳): 現代の機械学習における根本的な疑問は、ディープニューラルネットワークやトランスフォーマーのような大規模で過度にパラメータ化されたモデルが、たとえパラメータの数がトレーニングサンプルの数を超えたとしても、うまく一般化する傾向がある理由である。
普遍学習理論に基づく情報理論のレンズを通して,この現象を考察する。
具体的には,拡張仮説クラスに先立って,ログロスと(ほぼ)均一なベイズ混合学習者について検討する。
我々の重要な結果は、学習者の後悔は仮説クラス全体のサイズによって決定されるのではなく、クルバック・リーブラー分岐距離において近い全てのモデルの累積確率によって決定されることを示している。
この累積確率を仮説の重みとして参照する。
単純なモデルは大きな重みを持つものなので、一般化するためにサンプルを少なくするが、複雑なモデルは小さな重みを持ち、より多くのデータを必要とする。
この視点は、過度にパラメータ化されたモデルが過度に適合しない理由を厳密で直感的な説明を提供する。
さらに,Langevin を用いた確率的勾配勾配降下が正しい後部分布から得られることを思い出して,理論学習者がアンサンブル学習と組み合わせた標準的な機械学習手法を用いて近似することができるようにして,理論と実践を橋渡しする。
我々の分析は不均一な後悔境界をもたらし、平らなミニマや模型蒸留といった重要な概念と整合する。
結果は、オンライン、バッチ、教師付き学習設定に広く適用され、現代のAIシステムの一般化行動の統一的で原則化された理解を提供する。
関連論文リスト
- Bigger Isn't Always Memorizing: Early Stopping Overparameterized Diffusion Models [51.03144354630136]
自然データ領域の一般化は、記憶の開始前に訓練中に徐々に達成される。
一般化対メモ化は、時間スケール間の競合として最もよく理解される。
この現象学は,確率論的文脈自由文法をランダムな規則で学習する拡散モデルにおいて復元されることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:40:08Z) - A Classical View on Benign Overfitting: The Role of Sample Size [14.36840959836957]
モデルは任意に小さなトレーニングとテストエラーの両方を同時に達成する。
この振舞いはニューラルネットワークの特徴であり、しばしば低い(しかしゼロではない)トレーニングエラーを達成するが、それでもよく一般化される。
論文 参考訳(メタデータ) (2025-05-16T18:37:51Z) - Revisiting Optimism and Model Complexity in the Wake of Overparameterized Machine Learning [6.278498348219108]
まず、(有効)自由度という古典的な統計的概念を再解釈し、拡張することで、第一原理からモデルの複雑さを再考する。
我々は,概念的議論,理論,実験の混合を通じて,提案した複雑性尺度の有用性を実証する。
論文 参考訳(メタデータ) (2024-10-02T06:09:57Z) - Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文 参考訳(メタデータ) (2024-03-15T16:51:24Z) - The No Free Lunch Theorem, Kolmogorov Complexity, and the Role of Inductive Biases in Machine Learning [80.1018596899899]
ニューラルネットワークモデルは、Kolmogorov複雑性を使って形式化された、同じ好みを共有している、と我々は主張する。
実験の結果、事前訓練された言語モデルでも、低複雑さのシーケンスを生成するのが好まれることがわかった。
これらの観察は、ますます小さな機械学習モデルで異なるように見える問題を統一する深層学習の傾向を正当化する。
論文 参考訳(メタデータ) (2023-04-11T17:22:22Z) - More Than a Toy: Random Matrix Models Predict How Real-World Neural
Representations Generalize [94.70343385404203]
ほとんどの理論解析は、カーネル回帰においても定性的現象を捉えるには不十分であることがわかった。
古典的GCV推定器は局所確率行列法則が成立するたびに一般化リスクに収束することを示す。
この結果から, ランダム行列理論は, 実際には神経表現の性質を理解する上で重要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-03-11T18:59:01Z) - A Farewell to the Bias-Variance Tradeoff? An Overview of the Theory of
Overparameterized Machine Learning [37.01683478234978]
機械学習(ML)の急速な進歩は、この分野の長年のドグマに挑戦する科学的な疑問を数多く提起している。
最も重要なライドルの1つは、パラメータ化されたモデルの優れた経験的一般化である。
論文 参考訳(メタデータ) (2021-09-06T10:48:40Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z) - Generalization and Memorization: The Bias Potential Model [9.975163460952045]
生成モデルと密度推定器は、関数の学習モデルとは全く異なる振る舞いをする。
バイアスポテンシャルモデルでは、早期停止が採用された場合、次元非依存の一般化精度が達成可能であることを示す。
長期的には、モデルはサンプルを記憶するか、分岐させる。
論文 参考訳(メタデータ) (2020-11-29T04:04:54Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。