論文の概要: Fast cross-validation for multi-penalty ridge regression
- arxiv url: http://arxiv.org/abs/2005.09301v2
- Date: Thu, 1 Apr 2021 07:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 14:45:38.229741
- Title: Fast cross-validation for multi-penalty ridge regression
- Title(参考訳): マルチペナルティリッジ回帰のための高速クロスバリデーション
- Authors: Mark A. van de Wiel, Mirrelijn M. van Nee, Armin Rauschenberger
- Abstract要約: リッジ回帰は高次元データの単純なモデルである。
我々の主な貢献は、多孔質でサンプル重み付けされた帽子行列に対する計算的に非常に効率的な公式である。
ペアデータ型および優先データ型への拡張は、いくつかのがんゲノム生存予測問題に含まれ、図示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-dimensional prediction with multiple data types needs to account for
potentially strong differences in predictive signal. Ridge regression is a
simple model for high-dimensional data that has challenged the predictive
performance of many more complex models and learners, and that allows inclusion
of data type specific penalties. The largest challenge for multi-penalty ridge
is to optimize these penalties efficiently in a cross-validation (CV) setting,
in particular for GLM and Cox ridge regression, which require an additional
estimation loop by iterative weighted least squares (IWLS). Our main
contribution is a computationally very efficient formula for the multi-penalty,
sample-weighted hat-matrix, as used in the IWLS algorithm. As a result, nearly
all computations are in low-dimensional space, rendering a speed-up of several
orders of magnitude. We developed a flexible framework that facilitates
multiple types of response, unpenalized covariates, several performance
criteria and repeated CV. Extensions to paired and preferential data types are
included and illustrated on several cancer genomics survival prediction
problems. Moreover, we present similar computational shortcuts for maximum
marginal likelihood and Bayesian probit regression. The corresponding
R-package, multiridge, serves as a versatile standalone tool, but also as a
fast benchmark for other more complex models and multi-view learners.
- Abstract(参考訳): 複数のデータ型による高次元予測は、予測信号の潜在的に強い違いを考慮する必要がある。
リッジ回帰は高次元データの単純なモデルであり、より複雑なモデルや学習者の予測性能に挑戦し、データ型固有の罰則を含ませることができる。
マルチペナルティリッジの最大の課題は、これらのペナルティを、特に反復重み付き最小二乗 (IWLS) による追加推定ループを必要とする GLM および Cox リッジ回帰 (Cox ridge regression) の設定で効率的に最適化することである。
我々の主な貢献は、IWLSアルゴリズムで用いられるマルチペナルティ、サンプル重み付きハット行列に対する計算的に非常に効率的な公式である。
その結果、ほぼ全ての計算は低次元空間にあり、数桁の速度アップとなる。
我々は,複数種類の応答,不給付共変量,いくつかの性能基準,繰り返しCVを実現するフレキシブルなフレームワークを開発した。
ペアデータ型および優先データ型への拡張は、いくつかのがんゲノム生存予測問題に含まれ、図示されている。
さらに,最大限界確率とベイズ確率回帰に対する同様の計算ショートカットを提案する。
対応するr-packageであるmultiridgeは、汎用的なスタンドアロンツールとして機能するだけでなく、他の複雑なモデルやマルチビュー学習者の高速ベンチマークとしても機能する。
関連論文リスト
- Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - Multiple Augmented Reduced Rank Regression for Pan-Cancer Analysis [0.0]
フレキシブルな行列回帰および分解法である多重強化階数回帰(maRRR)を提案する。
我々は、ランダム行列理論によって動機付けられた構造化された核ノルムの目的を考える。
われわれはTGAの複数の癌型(すなわち膵臓)の遺伝子発現データにmaRRRを適用した。
論文 参考訳(メタデータ) (2023-08-30T21:40:58Z) - Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood
Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。
理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。
シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文 参考訳(メタデータ) (2023-06-05T21:08:34Z) - Scalable Estimation for Structured Additive Distributional Regression [0.0]
本稿では,勾配降下の考え方に基づいて,従来のノートパソコン上の任意の量のデータを扱うことができる新しいバックフィッティングアルゴリズムを提案する。
大規模なシミュレーション研究と、オーストリアにおける雷数予測の非常に困難でユニークな例を用いて、性能を評価した。
論文 参考訳(メタデータ) (2023-01-13T14:59:42Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Consensual Aggregation on Random Projected High-dimensional Features for
Regression [0.0]
本稿では,ランダムに投影された回帰予測の高次元的特徴に対するカーネルベースの合意アグリゲーションについて検討する。
集約方式は, 非常に大きく, 高い相関性を持つ特徴に対して, その性能を保っていることを数値的に説明する。
提案手法の効率性は,様々な種類の合成データセットと実データセットで評価されたいくつかの実験を通して説明される。
論文 参考訳(メタデータ) (2022-04-06T06:35:47Z) - Parallel integrative learning for large-scale multi-response regression
with incomplete outcomes [1.7403133838762448]
ビッグデータの時代には、不完全な結果、多数の応答、および予測者の高次元の共存は、推定、予測、および計算において前例のない課題を引き起こします。
不完全な結果を伴う大規模マルチレスポンス回帰のためのスケーラブルかつ計算効率の高い手順であるPEERを提案する。
いくつかの穏やかな規則条件下では、PEERは推定、予測、変数選択の一貫性を含む素晴らしいサンプリング特性を楽しんでいます。
論文 参考訳(メタデータ) (2021-04-11T19:01:24Z) - A Hypergradient Approach to Robust Regression without Correspondence [85.49775273716503]
本稿では,入力データと出力データとの対応が不十分な回帰問題について考察する。
ほとんどの既存手法はサンプルサイズが小さい場合にのみ適用できる。
シャッフル回帰問題に対する新しい計算フレームワークであるROBOTを提案する。
論文 参考訳(メタデータ) (2020-11-30T21:47:38Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Two-step penalised logistic regression for multi-omic data with an
application to cardiometabolic syndrome [62.997667081978825]
我々は,各層で変数選択を行うマルチオミックロジスティック回帰に対する2段階のアプローチを実装した。
私たちのアプローチは、可能な限り多くの関連する予測子を選択することを目標とすべきです。
提案手法により,分子レベルでの心筋メタボリックシンドロームの特徴を同定することができる。
論文 参考訳(メタデータ) (2020-08-01T10:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。