論文の概要: Scalable Subset Selection in Linear Mixed Models
- arxiv url: http://arxiv.org/abs/2506.20425v1
- Date: Wed, 25 Jun 2025 13:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.756503
- Title: Scalable Subset Selection in Linear Mixed Models
- Title(参考訳): 線形混合モデルにおけるスケーラブルなサブセット選択
- Authors: Ryan Thompson, Matt P. Wand, Joanna J. J. Wang,
- Abstract要約: 数秒から数分で数千の予測器を含むデータセット上で実行可能な,LMM選択のためのスパースサブセット正規化サブセットを提案する。
次に,合成実験における優れた性能と,生物学とジャーナリズムの2つのデータセット上での有用性を示す。
- 参考スコア(独自算出の注目度): 0.39373541926236766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear mixed models (LMMs), which incorporate fixed and random effects, are key tools for analyzing heterogeneous data, such as in personalized medicine or adaptive marketing. Nowadays, this type of data is increasingly wide, sometimes containing thousands of candidate predictors, necessitating sparsity for prediction and interpretation. However, existing sparse learning methods for LMMs do not scale well beyond tens or hundreds of predictors, leaving a large gap compared with sparse methods for linear models, which ignore random effects. This paper closes the gap with a new $\ell_0$ regularized method for LMM subset selection that can run on datasets containing thousands of predictors in seconds to minutes. On the computational front, we develop a coordinate descent algorithm as our main workhorse and provide a guarantee of its convergence. We also develop a local search algorithm to help traverse the nonconvex optimization surface. Both algorithms readily extend to subset selection in generalized LMMs via a penalized quasi-likelihood approximation. On the statistical front, we provide a finite-sample bound on the Kullback-Leibler divergence of the new method. We then demonstrate its excellent performance in synthetic experiments and illustrate its utility on two datasets from biology and journalism.
- Abstract(参考訳): 固定効果とランダム効果を組み込んだ線形混合モデル(LMM)は、パーソナライズされた医療や適応マーケティングなどの異種データを分析するための重要なツールである。
今日では、このタイプのデータはますます広くなり、予測や解釈に空間性を必要とする、数千の候補予測器が時々含まれている。
しかし、LMMの既存のスパース学習法は、数十から数百の予測値を超えておらず、ランダムな効果を無視する線形モデルのスパース法と比較して大きなギャップを残している。
本稿では,LMMサブセット選択のための新しい$\ell_0$正規化メソッドでギャップを埋める。
計算面では、座標降下アルゴリズムを主要な作業場として開発し、その収束を保証する。
また,非凸最適化曲面をトラバースする局所探索アルゴリズムを開発した。
どちらのアルゴリズムも、擬似近似を用いて一般化 LMM のサブセット選択に容易に拡張できる。
統計学面では、新しい方法のクルバック・リーブラ発散に基づく有限サンプルを与える。
次に、その優れた性能を合成実験で実証し、生物学とジャーナリズムの2つのデータセットでその有用性を説明する。
関連論文リスト
- Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - Fast Semisupervised Unmixing Using Nonconvex Optimization [80.11512905623417]
半/ライブラリベースのアンミックスのための新しい凸凸モデルを提案する。
スパース・アンミキシングの代替手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-01-23T10:07:41Z) - A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data [0.0]
我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。
このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
論文 参考訳(メタデータ) (2023-02-06T23:34:51Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - On Learning Mixture of Linear Regressions in the Non-Realizable Setting [44.307245411703704]
線形回帰(MLR)の混合はラベルを予測せずに値のリストを予測できることを示す。
本稿では,一般的な最小化 (AM) アルゴリズムのバージョンが,実現可能なモデルが仮定されていない場合でも,データセットに最も適した線を見つけることを示す。
論文 参考訳(メタデータ) (2022-05-26T05:34:57Z) - A similarity-based Bayesian mixture-of-experts model [0.5156484100374058]
多変量回帰問題に対する新しい非パラメトリック混合実験モデルを提案する。
条件付きモデルを用いて、サンプル外入力の予測は、観測された各データポイントと類似性に基づいて行われる。
混合物のパラメータと距離測定値に基づいて後部推論を行う。
論文 参考訳(メタデータ) (2020-12-03T18:08:30Z) - Non-Adaptive Adaptive Sampling on Turnstile Streams [57.619901304728366]
カラムサブセット選択、部分空間近似、射影クラスタリング、および空間サブリニアを$n$で使用するターンタイルストリームのボリュームに対する最初の相対エラーアルゴリズムを提供する。
我々の適応的なサンプリング手法は、様々なデータ要約問題に多くの応用をもたらしており、これは最先端を改善するか、より緩和された行列列モデルで以前に研究されただけである。
論文 参考訳(メタデータ) (2020-04-23T05:00:21Z) - Gaussian Process Boosting [13.162429430481982]
ガウス過程と混合効果モデルを組み合わせた新しい手法を提案する。
シミュレーションおよび実世界のデータセットに対する既存手法と比較して予測精度が向上する。
論文 参考訳(メタデータ) (2020-04-06T13:19:54Z) - Semi-Supervised Learning with Normalizing Flows [54.376602201489995]
FlowGMMは、フローの正規化を伴う生成半教師付き学習におけるエンドツーエンドのアプローチである。
我々は AG-News や Yahoo Answers のテキストデータなど,幅広いアプリケーションに対して有望な結果を示す。
論文 参考訳(メタデータ) (2019-12-30T17:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。