論文の概要: ROTI-GCV: Generalized Cross-Validation for right-ROTationally Invariant Data
- arxiv url: http://arxiv.org/abs/2406.11666v2
- Date: Tue, 29 Oct 2024 04:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:37:35.884580
- Title: ROTI-GCV: Generalized Cross-Validation for right-ROTationally Invariant Data
- Title(参考訳): ROTI-GCV:右回転不変データに対する一般化クロスバリデーション
- Authors: Kevin Luo, Yufan Li, Pragya Sur,
- Abstract要約: 高次元正規化回帰における2つの重要なタスクは、正確な予測のために正規化強度を調整し、サンプル外リスクを推定することである。
問題のある条件下でクロスバリデーションを確実に行うための新しいフレームワーク ROTI-GCV を導入する。
- 参考スコア(独自算出の注目度): 1.194799054956877
- License:
- Abstract: Two key tasks in high-dimensional regularized regression are tuning the regularization strength for accurate predictions and estimating the out-of-sample risk. It is known that the standard approach -- $k$-fold cross-validation -- is inconsistent in modern high-dimensional settings. While leave-one-out and generalized cross-validation remain consistent in some high-dimensional cases, they become inconsistent when samples are dependent or contain heavy-tailed covariates. As a first step towards modeling structured sample dependence and heavy tails, we use right-rotationally invariant covariate distributions -- a crucial concept from compressed sensing. In the proportional asymptotics regime where the number of features and samples grow comparably, which is known to better reflect the empirical behavior in moderately sized datasets, we introduce a new framework, ROTI-GCV, for reliably performing cross-validation under these challenging conditions. Along the way, we propose new estimators for the signal-to-noise ratio and noise variance. We conduct experiments that demonstrate the accuracy of our approach in a variety of synthetic and semi-synthetic settings.
- Abstract(参考訳): 高次元正規化回帰における2つの重要なタスクは、正確な予測のために正規化強度を調整し、サンプル外リスクを推定することである。
標準的なアプローチである$k$-foldクロスバリデーションは、現代の高次元設定では矛盾することが知られている。
ある高次元のケースでは、退行や一般化されたクロスバリデーションは一貫しているが、サンプルが依存している場合や重尾の共変量を含む場合、それらは矛盾する。
構造されたサンプル依存と重い尾部をモデル化する第一歩として、右回転不変な共変量分布を用いる。
適度な大きさのデータセットにおける経験的挙動を反映した特徴量やサンプル数が比較可能な比例漸近型システムでは,これらの困難条件下でのクロスバリデーションを確実に行うための新しいフレームワークROTI-GCVを導入する。
その過程で,信号対雑音比と雑音分散に対する新しい推定器を提案する。
我々は, 様々な合成および半合成環境において, アプローチの精度を実証する実験を行った。
関連論文リスト
- Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
さらに、テストポイントがトレーニングセットと非自明な相関を持ち、時系列予測で頻繁に発生するような場合まで分析を拡張します。
我々は多種多様な高次元データにまたがって理論を検証する。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - Stability-Adjusted Cross-Validation for Sparse Linear Regression [5.156484100374059]
k倍のクロスバリデーションのようなクロスバリデーション技術はスパース回帰の計算コストを大幅に増大させる。
クロスバリデーションメトリックの重み付け和とモデルの出力安定性を最小化するハイパーパラメータの選択を提案する。
我々の信頼度調整手順は、13の実世界のデータセット上で、テストセットエラーを平均で2%削減する。
論文 参考訳(メタデータ) (2023-06-26T17:02:45Z) - The Decaying Missing-at-Random Framework: Doubly Robust Causal Inference
with Partially Labeled Data [10.021381302215062]
現実のシナリオでは、データ収集の制限によって部分的にラベル付けされたデータセットが生成されることが多く、信頼性の高い因果推論の描画が困難になる。
半パラメトリック(SS)や欠落したデータ文学における従来のアプローチは、これらの複雑さを適切に扱えないため、偏りのある見積もりにつながる可能性がある。
このフレームワークは、高次元設定における欠落した結果に対処し、選択バイアスを考慮に入れます。
論文 参考訳(メタデータ) (2023-05-22T07:37:12Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - A Targeted Accuracy Diagnostic for Variational Approximations [8.969208467611896]
変分推論(VI)はマルコフ・チェイン・モンテカルロ(MCMC)の魅力的な代替品である
既存の方法は、全変分分布の品質を特徴付ける。
配電近似精度(TADDAA)のためのTArgeted診断法を提案する。
論文 参考訳(メタデータ) (2023-02-24T02:50:18Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Squared $\ell_2$ Norm as Consistency Loss for Leveraging Augmented Data
to Learn Robust and Invariant Representations [76.85274970052762]
元のサンプルと拡張されたサンプルの埋め込み/表現の距離を規則化することは、ニューラルネットワークの堅牢性を改善するための一般的なテクニックである。
本稿では、これらの様々な正規化選択について検討し、埋め込みの正規化方法の理解を深める。
私たちが特定したジェネリックアプローチ(squared $ell$ regularized augmentation)は、それぞれ1つのタスクのために特別に設計されたいくつかの手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-25T22:40:09Z) - On Model Identification and Out-of-Sample Prediction of Principal
Component Regression: Applications to Synthetic Controls [20.96904429337912]
固定設計による高次元誤差変数設定における主成分回帰(PCR)の解析を行う。
我々は、最もよく知られたレートで改善される非漸近的なアウト・オブ・サンプル予測の保証を確立する。
論文 参考訳(メタデータ) (2020-10-27T17:07:36Z) - GANs with Variational Entropy Regularizers: Applications in Mitigating
the Mode-Collapse Issue [95.23775347605923]
深層学習の成功に基づいて、GAN(Generative Adversarial Networks)は、観測されたサンプルから確率分布を学習するための現代的なアプローチを提供する。
GANはしばしば、ジェネレータが入力分布の既存のすべてのモードをキャプチャできないモード崩壊問題に悩まされる。
情報理論のアプローチを採り、生成したサンプルのエントロピーの変動的下限を最大化し、それらの多様性を増大させる。
論文 参考訳(メタデータ) (2020-09-24T19:34:37Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。