論文の概要: High-dimensional ridge regression with random features for non-identically distributed data with a variance profile
- arxiv url: http://arxiv.org/abs/2504.03035v1
- Date: Thu, 03 Apr 2025 21:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:49.385327
- Title: High-dimensional ridge regression with random features for non-identically distributed data with a variance profile
- Title(参考訳): 分散プロファイルを持つ不特定分散データに対するランダム特徴付き高次元リッジ回帰
- Authors: Issa-Mbenard Dabo, Jérémie Bigot,
- Abstract要約: 高次元回帰フレームワークにおけるランダム特徴モデルの振る舞いは、機械学習の文献に注目される問題となっている。
非イド特徴ベクトルの設定におけるランダム特徴モデルの性能について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The behavior of the random feature model in the high-dimensional regression framework has become a popular issue of interest in the machine learning literature}. This model is generally considered for feature vectors $x_i = \Sigma^{1/2} x_i'$, where $x_i'$ is a random vector made of independent and identically distributed (iid) entries, and $\Sigma$ is a positive definite matrix representing the covariance of the features. In this paper, we move beyond {\CB this standard assumption by studying the performances of the random features model in the setting of non-iid feature vectors}. Our approach is related to the analysis of the spectrum of large random matrices through random matrix theory (RMT) {\CB and free probability} results. We turn to the analysis of non-iid data by using the notion of variance profile {\CB which} is {\CB well studied in RMT.} Our main contribution is then the study of the limits of the training and {\CB prediction} risks associated to the ridge estimator in the random features model when its dimensions grow. We provide asymptotic equivalents of these risks that capture the behavior of ridge regression with random features in a {\CB high-dimensional} framework. These asymptotic equivalents, {\CB which prove to be sharp in numerical experiments}, are retrieved by adapting, to our setting, established results from operator-valued free probability theory. Moreover, {\CB for various classes of random feature vectors that have not been considered so far in the literature}, our approach allows to show the appearance of the double descent phenomenon when the ridge regularization parameter is small enough.
- Abstract(参考訳): 高次元回帰フレームワークにおけるランダム特徴モデルの振る舞いは、機械学習文学における一般的な関心事となっている。
このモデルは一般に特徴ベクトルに対して $x_i = \Sigma^{1/2} x_i'$ とみなすが、$x_i'$ は独立かつ同値な(iid)エントリからなるランダムなベクトルであり、$\Sigma$ は特徴の共分散を表す正定行列である。
本稿では、非イド特徴ベクトルの設定におけるランダム特徴量モデルの性能を研究することにより、この標準前提であるCBを超越する。
提案手法は, ランダム行列理論 (RMT) {\CBおよび自由確率を用いた大規模ランダム行列のスペクトル解析に関係している。
RMTでよく研究されている分散プロファイル(CB)の概念を用いて、非イドデータの解析に目を向ける。
以上の結果から,本研究の主な貢献は,トレーニングの限界と,その次元が大きくなると,無作為な特徴モデルにおける隆起推定器に関連するリスクについて考察することである。
我々は、これらのリスクの漸近的等価性を提供し、CB高次元フレームワークにおいて、ランダムな特徴を持つリッジ回帰の挙動を捉える。
数値実験において鋭いことを証明したこれらの漸近同値 (CB) は, 演算子値自由確率理論の確立された結果に適応することで得られる。
さらに,これまでの文献では考慮されていない様々なランダムな特徴ベクトルのクラスに対して,リッジ正規化パラメータが十分に小さい場合に,二重降下現象の出現を示すことができる。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - High-dimensional analysis of ridge regression for non-identically distributed data with a variance profile [0.0]
線形回帰に対する尾根推定器の予測リスクを分散プロファイルを用いて検討した。
ある種の分散プロファイルについては、よく知られた二重降下現象の出現に注目した。
また、独立分散データと同一分散データの標準設定で存在する類似点と相違点についても検討する。
論文 参考訳(メタデータ) (2024-03-29T14:24:49Z) - Analysing heavy-tail properties of Stochastic Gradient Descent by means of Stochastic Recurrence Equations [0.0]
近年の研究では、グラディエント蛍光(SGD)の重いテール特性が再帰の確率的枠組みで研究されている。
我々は、引用された論文のいくつかのオープンな質問に答え、既約確率 (i-p) 行列の理論を適用して結果を拡張する。
論文 参考訳(メタデータ) (2024-03-20T13:39:19Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Simplex Random Features [53.97976744884616]
ソフトマックスおよびガウスカーネルの非バイアス近似のための新しいランダム特徴(RF)機構であるSimplex Random Features (SimRFs)を提案する。
我々は,これらのカーネルの非バイアス推定値に対して,SimRFが最小平均二乗誤差(MSE)を提供することを示す。
ポイントワイドカーネル推定,非パラメトリック分類,スケーラブルトランスフォーマーなどの設定において,SimRFによる一貫したゲインを示す。
論文 参考訳(メタデータ) (2023-01-31T18:53:39Z) - Generative Principal Component Analysis [47.03792476688768]
生成的モデリング仮定を用いた主成分分析の問題点を考察する。
鍵となる仮定は、基礎となる信号は、$k$次元の入力を持つ$L$-Lipschitz連続生成モデルの範囲に近いことである。
本稿では,2次推定器を提案し,検体数として$m$の次数$sqrtfracklog Lm$の統計率を示す。
論文 参考訳(メタデータ) (2022-03-18T01:48:16Z) - When Random Tensors meet Random Matrices [50.568841545067144]
本稿では,ガウス雑音を伴う非対称次数-$d$スパイクテンソルモデルについて検討する。
検討したモデルの解析は、等価なスパイクされた対称テクシットブロック-ワイドランダム行列の解析に起因していることを示す。
論文 参考訳(メタデータ) (2021-12-23T04:05:01Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Prediction in latent factor regression: Adaptive PCR and beyond [2.9439848714137447]
我々は、大きなクラスの予測子のリスクバウンドを確立するマスター定理を証明する。
主定理を用いて、最小ノルム補間予測器の既知のリスク境界を復元する。
理論的結果を裏付け,補完するための詳細なシミュレーション研究を締めくくった。
論文 参考訳(メタデータ) (2020-07-20T12:42:47Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。