#### 論文の概要: Fitting very flexible models: Linear regression with large numbers of parameters

• arxiv url: http://arxiv.org/abs/2101.07256v1
• Date: Fri, 15 Jan 2021 21:08:34 GMT
• ステータス: 処理完了
• システム内更新日: 2021-03-28 11:10:00.858317
• Title: Fitting very flexible models: Linear regression with large numbers of parameters
• Title（参考訳）: 非常に柔軟なモデル:多数のパラメータを持つ線形回帰
• Authors: David W. Hogg (NYU) and Soledad Villar (JHU)
• Abstract要約: リニアフィッティングはデータの一般化とデノライゼーションに使用される。 この基底関数のフィッティングについて, 通常の最小二乗とその拡張を用いて論じる。 無限パラメータの限界を取ることさえ可能であり、基礎と正規化が正しく選択された場合、最小の正方形の適合はプロセスの平均になります。
• 参考スコア（独自算出の注目度）: 0.0
• Abstract: There are many uses for linear fitting; the context here is interpolation and denoising of data, as when you have calibration data and you want to fit a smooth, flexible function to those data. Or you want to fit a flexible function to de-trend a time series or normalize a spectrum. In these contexts, investigators often choose a polynomial basis, or a Fourier basis, or wavelets, or something equally general. They also choose an order, or number of basis functions to fit, and (often) some kind of regularization. We discuss how this basis-function fitting is done, with ordinary least squares and extensions thereof. We emphasize that it is often valuable to choose far more parameters than data points, despite folk rules to the contrary: Suitably regularized models with enormous numbers of parameters generalize well and make good predictions for held-out data; over-fitting is not (mainly) a problem of having too many parameters. It is even possible to take the limit of infinite parameters, at which, if the basis and regularization are chosen correctly, the least-squares fit becomes the mean of a Gaussian process. We recommend cross-validation as a good empirical method for model selection (for example, setting the number of parameters and the form of the regularization), and jackknife resampling as a good empirical method for estimating the uncertainties of the predictions made by the model. We also give advice for building stable computational implementations.
• Abstract（参考訳）: ここでのコンテキストはデータの補間と分極であり、キャリブレーションデータを持ち、それらのデータにスムーズで柔軟な関数を適合させたい場合のようにである。 あるいは、時系列を非トレーディングしたり、スペクトルを正規化するために柔軟な関数をフィットさせたい。 これらの文脈では、研究者はしばしば多項式基底、フーリエ基底、ウェーブレット、あるいは等しく一般的なものを選択する。 それらはまた、適合する順序や基底関数の数、そして(しばしば)ある種の正規化を選択する。 この基底関数のフィッティングについて, 通常の最小二乗とその拡張を用いて論じる。 膨大な数のパラメータを持つ適切な正規化モデルが適切に一般化し、保留データに対して良い予測をする;過剰適合は(主に)多くのパラメータを持つ問題ではない。 無限パラメータの極限を取ることも可能であり、基底と正則化が正しく選択されると、最小二乗はガウス過程の平均となる。 モデル選択のための優れた経験的手法(例えば、パラメータの数と正規化の形式を設定する)としてのクロスバリデーションと、モデルによる予測の不確かさを推定するための優れた経験的手法としてjackknifeの再サンプリングを推奨する。 また,安定な計算実装の構築についてもアドバイスする。

