論文の概要: The Shape of Generalization through the Lens of Norm-based Capacity Control
- arxiv url: http://arxiv.org/abs/2502.01585v2
- Date: Mon, 19 May 2025 14:36:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.41762
- Title: The Shape of Generalization through the Lens of Norm-based Capacity Control
- Title(参考訳): ノーム型容量制御レンズによる一般化の形状
- Authors: Yichen Wang, Yudong Chen, Lorenzo Rosasco, Fanghui Liu,
- Abstract要約: 我々は,ノルムに基づくキャパシティ測定について検討し,ランダムな特徴量に基づく推定器について検討する。
推定器のノルムがどのように集中し、どのように関連するテストエラーを管理するかを正確に評価する。
これは、より古典的なU字型の振る舞いが、サイズよりもモデルノルムに基づく適切なキャパシティ測度を考慮して復元されることを確認する。
- 参考スコア(独自算出の注目度): 20.88908358215574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how the test risk scales with model complexity is a central question in machine learning. Classical theory is challenged by the learning curves observed for large over-parametrized deep networks. Capacity measures based on parameter count typically fail to account for these empirical observations. To tackle this challenge, we consider norm-based capacity measures and develop our study for random features based estimators, widely used as simplified theoretical models for more complex networks. In this context, we provide a precise characterization of how the estimator's norm concentrates and how it governs the associated test error. Our results show that the predicted learning curve admits a phase transition from under- to over-parameterization, but no double descent behavior. This confirms that more classical U-shaped behavior is recovered considering appropriate capacity measures based on models norms rather than size. From a technical point of view, we leverage deterministic equivalence as the key tool and further develop new deterministic quantities which are of independent interest.
- Abstract(参考訳): テストリスクがモデル複雑性によってどのようにスケールするかを理解することは、機械学習における中心的な問題である。
古典理論は、大きな過度にパラメータ化された深層ネットワークで観測される学習曲線によって挑戦される。
パラメータ数に基づく容量測定は、一般的にこれらの経験的な観測を考慮できない。
この課題に対処するために、我々はノルムに基づくキャパシティ測定を検討し、より複雑なネットワークの簡易な理論モデルとして広く利用されているランダム特徴量に基づく推定器について研究する。
この文脈では、推定器のノルムがどのように集中し、どのように関連するテストエラーを管理するかを正確に評価する。
以上の結果から,予測学習曲線は過パラメータ化から過パラメータ化への相転移を許容するが,二重降下挙動は認められないことがわかった。
これは、より古典的なU字型の振る舞いが、サイズよりもモデルノルムに基づく適切なキャパシティ測度を考慮して復元されることを確認する。
技術的観点からは、決定論的等価性を鍵となるツールとして活用し、独立性のある新たな決定論的量を開発する。
関連論文リスト
- Norm-Bounded Low-Rank Adaptation [10.22454500514559]
重み適応行列の各特異値に対する明示的な境界を許容する2つのパラメータ化を導入する。
視覚的微調整ベンチマーク実験により,提案手法は適応性能がよいことを示す。
また、プライバシ保護モデルマージと低ランク行列補完の応用についても検討する。
論文 参考訳(メタデータ) (2025-01-31T11:24:57Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Variational Bayesian surrogate modelling with application to robust design optimisation [0.9626666671366836]
サロゲートモデルは複雑な計算モデルに対して素早く評価できる近似を提供する。
入力の不確かさと次元減少を伴う統計的代理を構築するためのベイズ推定について考察する。
コスト関数がモデル出力の平均および標準偏差の重み付け和に依存するような本質的で頑健な構造最適化問題を示す。
論文 参考訳(メタデータ) (2024-04-23T09:22:35Z) - Gradient-based bilevel optimization for multi-penalty Ridge regression
through matrix differential calculus [0.46040036610482665]
我々は,l2-正則化を用いた線形回帰問題に対する勾配に基づくアプローチを導入する。
提案手法はLASSO, Ridge, Elastic Netレグレッションよりも優れていることを示す。
勾配の解析は、自動微分と比較して計算時間の観点からより効率的であることが証明されている。
論文 参考訳(メタデータ) (2023-11-23T20:03:51Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Least Squares Regression Can Exhibit Under-Parameterized Double Descent [6.645111950779666]
本研究では,学習データ点数,パラメータ数,モデルの一般化能力の関係について検討する。
ピークの位置は、スペクトルとサンプル共分散の固有ベクトルの両方の技術的性質に依存すると仮定する。
論文 参考訳(メタデータ) (2023-05-24T03:52:48Z) - Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。
論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。
本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Asymptotics of Ridge (less) Regression under General Source Condition [26.618200633139256]
我々は,真の回帰パラメータの構造が果たす役割を考察する。
有界信号-雑音比(SNR)においても(正規化なし)が最適であることを示す。
これは、リッジ回帰を考慮した以前の研究と対照的であり、この場合、無限 SNR の極限においてのみ最適である。
論文 参考訳(メタデータ) (2020-06-11T13:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。