論文の概要: Revisiting minimum description length complexity in overparameterized
models
- arxiv url: http://arxiv.org/abs/2006.10189v4
- Date: Thu, 12 Oct 2023 23:18:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 18:44:20.473804
- Title: Revisiting minimum description length complexity in overparameterized
models
- Title(参考訳): 過パラメータモデルにおける最小記述長複雑性の再検討
- Authors: Raaz Dwivedi, Chandan Singh, Bin Yu, Martin J. Wainwright
- Abstract要約: 本稿では,線形モデルとカーネル手法に対するMDL-COMPの広範な理論的特性について述べる。
カーネル法では,MDL-COMPがサンプル内誤差を最小化し,入力の次元が増加するにつれて減少することを示す。
また、MDL-COMPがサンプル内平均二乗誤差(MSE)を束縛していることも証明する。
- 参考スコア(独自算出の注目度): 38.21167656112762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Complexity is a fundamental concept underlying statistical learning theory
that aims to inform generalization performance. Parameter count, while
successful in low-dimensional settings, is not well-justified for
overparameterized settings when the number of parameters is more than the
number of training samples. We revisit complexity measures based on Rissanen's
principle of minimum description length (MDL) and define a novel MDL-based
complexity (MDL-COMP) that remains valid for overparameterized models. MDL-COMP
is defined via an optimality criterion over the encodings induced by a good
Ridge estimator class. We provide an extensive theoretical characterization of
MDL-COMP for linear models and kernel methods and show that it is not just a
function of parameter count, but rather a function of the singular values of
the design or the kernel matrix and the signal-to-noise ratio. For a linear
model with $n$ observations, $d$ parameters, and i.i.d. Gaussian predictors,
MDL-COMP scales linearly with $d$ when $d<n$, but the scaling is exponentially
smaller -- $\log d$ for $d>n$. For kernel methods, we show that MDL-COMP
informs minimax in-sample error, and can decrease as the dimensionality of the
input increases. We also prove that MDL-COMP upper bounds the in-sample mean
squared error (MSE). Via an array of simulations and real-data experiments, we
show that a data-driven Prac-MDL-COMP informs hyper-parameter tuning for
optimizing test MSE with ridge regression in limited data settings, sometimes
improving upon cross-validation and (always) saving computational costs.
Finally, our findings also suggest that the recently observed double decent
phenomenons in overparameterized models might be a consequence of the choice of
non-ideal estimators.
- Abstract(参考訳): 複雑性は、一般化性能の伝達を目的とした統計学習理論の基礎概念である。
パラメータカウントは低次元設定で成功したが、パラメータの数がトレーニングサンプルの数以上である場合、過度なパラメータ化設定には適していない。
我々は、リッサネンの最小記述長(MDL)の原理に基づく複雑性対策を再検討し、過パラメータ化モデルに有効な新しいMDLベースの複雑性(MDL-COMP)を定義する。
mdl-comp は good ridge estimator クラスによって引き起こされる符号化の最適性基準によって定義される。
線形モデルとカーネル法に対するmdl-compの広範な理論的特徴付けを行い,パラメータカウントの関数であるだけでなく,設計やカーネル行列の特異値や信号対雑音比の関数であることを示した。
n$ の観測値、$d$パラメータ、および i.i.d.ガウス予測値を持つ線形モデルの場合、mdl-comp は $d<n$ のとき$d$ で線形にスケールするが、スケーリングは指数関数的に小さく、$\log d$ は $d>n$ である。
カーネル法では,MDL-COMPがサンプル内誤差を最小化し,入力の次元が増加するにつれて減少することを示す。
また,MDL-COMP上界が平均二乗誤差(MSE)であることを示す。
データ駆動型Prac-MDL-COMPは、シミュレーションと実データ実験により、制限されたデータ設定でのリッジ回帰によるテストMSEの最適化、時にはクロスバリデーションや(常に)計算コストの削減のために、ハイパーパラメータチューニングを通知する。
最後に, 過パラメータモデルにおける最近観測された2重のまともな現象は, 非理想的推定者の選択の結果である可能性が示唆された。
関連論文リスト
- Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Parameter-Agnostic Optimization under Relaxed Smoothness [25.608968462899316]
本研究では,モメンタムを用いた正規化グラディエントDescence (NSGD-M) が,問題パラメータの事前知識を必要とせずに,速度-最適の複雑性を実現できることを示す。
決定論的設定では、指数係数は、バックトラックラインサーチによるグラディエント・ディクスト(Gradient Descent)を用いることで、中和することができる。
論文 参考訳(メタデータ) (2023-11-06T16:39:53Z) - Exact and general decoupled solutions of the LMC Multitask Gaussian Process model [28.32223907511862]
コリージョン化線形モデル(英: Linear Model of Co- Regionalization、LMC)は、回帰や分類のためのマルチタスクガウス過程の非常に一般的なモデルである。
最近の研究によると、ある条件下では、モデルの潜在過程は切り離され、そのプロセスの数でのみ線形となる複雑さが生じる。
ここでは、これらの結果を拡張し、LCCの効率的な正確な計算に必要な条件はノイズモデルに関する軽度の仮説である、という最も一般的な仮定から示している。
論文 参考訳(メタデータ) (2023-10-18T15:16:24Z) - Value-Biased Maximum Likelihood Estimation for Model-based Reinforcement
Learning in Discounted Linear MDPs [16.006893624836554]
本稿では,VBMLE (Value-Biased Maximum Likelihood Estimation) のレンズによる線形MDPの解法を提案する。
VBMLEは、各時間ステップで1つの最適化問題だけを解決する必要があるため、計算的により効率的である。
後悔する解析では、線形MDPにおけるMLEの一般収束結果が、新しいスーパーマーチンゲール構造を通して提供される。
論文 参考訳(メタデータ) (2023-10-17T18:27:27Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [61.87673435273466]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Regularization and Variance-Weighted Regression Achieves Minimax
Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。
MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。
我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文 参考訳(メタデータ) (2023-05-22T16:13:05Z) - Inverting brain grey matter models with likelihood-free inference: a
tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。
我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。
次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文 参考訳(メタデータ) (2021-11-15T09:08:27Z) - A Data-driven feature selection and machine-learning model benchmark for
the prediction of longitudinal dispersion coefficient [29.58577229101903]
縦方向分散(LD)係数の正確な予測は、関連するシミュレーションにおいて性能の飛躍をもたらすことができる。
本研究では, 蒸留した局所最適値と代表MLモデルとの数値比較により, 大域的最適特徴集合を提案した。
その結果,サポートベクタマシンは他のモデルよりも大幅に性能が向上していることがわかった。
論文 参考訳(メタデータ) (2021-07-16T09:50:38Z) - Fundamental Limits of Ridge-Regularized Empirical Risk Minimization in
High Dimensions [41.7567932118769]
経験的リスク最小化アルゴリズムは、様々な推定や予測タスクで広く利用されている。
本稿では,コンベックスEMMの統計的精度に関する基礎的限界を推論のために初めて特徴づける。
論文 参考訳(メタデータ) (2020-06-16T04:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。