論文の概要: A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data
- arxiv url: http://arxiv.org/abs/2302.03157v2
- Date: Mon, 25 Mar 2024 18:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 01:49:43.765137
- Title: A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data
- Title(参考訳): クラスタデータと長手データの階層的モデリングに対する分布自由混合整数最適化手法
- Authors: Madhav Sankaranarayanan, Intekhab Hossain, Tom Chen,
- Abstract要約: 我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。
このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in Mixed Integer Optimization (MIO) algorithms, paired with hardware enhancements, have led to significant speedups in resolving MIO problems. These strategies have been utilized for optimal subset selection, specifically for choosing $k$ features out of $p$ in linear regression given $n$ observations. In this paper, we broaden this method to facilitate cluster-aware regression, where selection aims to choose $\lambda$ out of $K$ clusters in a linear mixed effects (LMM) model with $n_k$ observations for each cluster. Through comprehensive testing on a multitude of synthetic and real datasets, we exhibit that our method efficiently solves problems within minutes. Through numerical experiments, we also show that the MIO approach outperforms both Gaussian- and Laplace-distributed LMMs in terms of generating sparse solutions with high predictive power. Traditional LMMs typically assume that clustering effects are independent of individual features. However, we introduce an innovative algorithm that evaluates cluster effects for new data points, thereby increasing the robustness and precision of this model. The inferential and predictive efficacy of this approach is further illustrated through its application in student scoring and protein expression.
- Abstract(参考訳): ハードウェア拡張と組み合わせたMIOアルゴリズムの最近の進歩は、MIO問題を解く上で大きなスピードアップをもたらした。
これらの戦略は最適な部分集合選択に利用されており、特に$n$の観測により$p$の線形回帰から$k$の機能を選択できる。
本稿では,各クラスタに対して$n_k$の観測値を持つ線形混合効果(LMM)モデルで,$K$のクラスタから$\lambda$を選択できるようにする。
多数の合成および実データに対する包括的テストにより,本手法は数分以内に効率よく問題を解くことができることを示した。
数値実験により,MIO法はガウス分布LMMとラプラス分布LMMの両方において,高い予測力でスパース解を生成するという点で優れることを示した。
従来のLMMは、クラスタリング効果は個々の特徴とは独立していると仮定する。
しかし、新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し、その結果、モデルの堅牢性と精度が向上する。
このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
関連論文リスト
- Fast Semisupervised Unmixing Using Nonconvex Optimization [80.11512905623417]
半/ライブラリベースのアンミックスのための新しい凸凸モデルを提案する。
スパース・アンミキシングの代替手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-01-23T10:07:41Z) - Clustering based on Mixtures of Sparse Gaussian Processes [6.939768185086753]
低次元の組込み空間を使ってデータをクラスタする方法は、マシンラーニングにおいて依然として難しい問題である。
本稿では,クラスタリングと次元還元の両立を目的とした共同定式化を提案する。
我々のアルゴリズムはスパースガウス過程の混合に基づいており、スパースガウス過程混合クラスタリング(SGP-MIC)と呼ばれる。
論文 参考訳(メタデータ) (2023-03-23T20:44:36Z) - Regularization and Optimization in Model-Based Clustering [4.096453902709292]
k-平均アルゴリズムの変種は、本質的に同じ球面ガウスの混合と、そのような分布から大きく逸脱するデータに適合する。
一般のGMMに対してより効率的な最適化アルゴリズムを開発し、これらのアルゴリズムと正規化戦略を組み合わせ、過度な適合を避ける。
これらの結果から, GMM と k-means 法の間の現状に新たな光を当て, 一般 GMM をデータ探索に利用することが示唆された。
論文 参考訳(メタデータ) (2023-02-05T18:22:29Z) - Likelihood Adjusted Semidefinite Programs for Clustering Heterogeneous
Data [16.153709556346417]
クラスタリングは広くデプロイされた学習ツールである。
iLA-SDPはEMよりも感度が低く、高次元データでは安定である。
論文 参考訳(メタデータ) (2022-09-29T21:03:13Z) - Random Manifold Sampling and Joint Sparse Regularization for Multi-label
Feature Selection [0.0]
本稿では,$ell_2,1$および$ell_F$正規化の連立制約付き最適化問題を解くことで,最も関連性の高いいくつかの特徴を得ることができる。
実世界のデータセットの比較実験により,提案手法が他の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-04-13T15:06:12Z) - Personalized Federated Learning via Convex Clustering [72.15857783681658]
本稿では,局所凸型ユーザコストを用いた個人化フェデレーション学習のためのアルゴリズム群を提案する。
提案するフレームワークは,異なるユーザのモデルの違いをペナル化する凸クラスタリングの一般化に基づいている。
論文 参考訳(メタデータ) (2022-02-01T19:25:31Z) - Spike-and-Slab Generalized Additive Models and Scalable Algorithms for
High-Dimensional Data [0.0]
本稿では,高次元データに対応するため,階層型一般化加法モデル(GAM)を提案する。
曲線の適切な縮退と滑らか化関数線型空間と非線形空間の分離に対する平滑化ペナルティを考察する。
2つの決定論的アルゴリズム、EM-Coordinate Descent と EM-Iterative Weighted Least Squares は異なるユーティリティ向けに開発された。
論文 参考訳(メタデータ) (2021-10-27T14:11:13Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Slice Sampling for General Completely Random Measures [74.24975039689893]
本稿では, 後続推定のためのマルコフ連鎖モンテカルロアルゴリズムについて, 補助スライス変数を用いてトランケーションレベルを適応的に設定する。
提案アルゴリズムの有効性は、いくつかの一般的な非パラメトリックモデルで評価される。
論文 参考訳(メタデータ) (2020-06-24T17:53:53Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。