論文の概要: A Unified Framework for Variable Selection in Model-Based Clustering with Missing Not at Random
- arxiv url: http://arxiv.org/abs/2505.19093v1
- Date: Sun, 25 May 2025 11:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.898865
- Title: A Unified Framework for Variable Selection in Model-Based Clustering with Missing Not at Random
- Title(参考訳): ランダムに欠落しないモデルベースクラスタリングにおける可変選択のための統一フレームワーク
- Authors: Binh H. Ho, Long Nguyen Chi, TrungTin Nguyen, Binh T. Nguyen, Van Ha Hoang, Christopher Drovandi,
- Abstract要約: 本稿では,これらの課題を同時に解決するための統合フレームワークを提案する。
提案手法では,データ駆動型ペナルティ行列をクラスタリングに組み込んで,より柔軟な変数選択を実現する。
一定の規則性の下で、提案するフレームワークは、欠落したデータが存在する場合でも、クラスタリングの一貫性と一貫性の両方を達成することを実証する。
- 参考スコア(独自算出の注目度): 3.7967162203679155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based clustering integrated with variable selection is a powerful tool for uncovering latent structures within complex data. However, its effectiveness is often hindered by challenges such as identifying relevant variables that define heterogeneous subgroups and handling data that are missing not at random, a prevalent issue in fields like transcriptomics. While several notable methods have been proposed to address these problems, they typically tackle each issue in isolation, thereby limiting their flexibility and adaptability. This paper introduces a unified framework designed to address these challenges simultaneously. Our approach incorporates a data-driven penalty matrix into penalized clustering to enable more flexible variable selection, along with a mechanism that explicitly models the relationship between missingness and latent class membership. We demonstrate that, under certain regularity conditions, the proposed framework achieves both asymptotic consistency and selection consistency, even in the presence of missing data. This unified strategy significantly enhances the capability and efficiency of model-based clustering, advancing methodologies for identifying informative variables that define homogeneous subgroups in the presence of complex missing data patterns. The performance of the framework, including its computational efficiency, is evaluated through simulations and demonstrated using both synthetic and real-world transcriptomic datasets.
- Abstract(参考訳): 変数選択と統合されたモデルベースのクラスタリングは、複雑なデータ内の潜在構造を明らかにする強力なツールである。
しかし、その効果は、不均一な部分群を定義する関連する変数の特定や、ランダムにないデータを扱うといった問題によってしばしば妨げられる。
これらの問題に対処するためにいくつかの注目すべき方法が提案されているが、通常はそれぞれの問題に個別に対処し、柔軟性と適応性を制限している。
本稿では,これらの課題を同時に解決するための統合フレームワークを提案する。
提案手法では,データ駆動型ペナルティ行列をペナル化クラスタリングに組み込んで,よりフレキシブルな変数選択を実現するとともに,欠落と潜伏クラスメンバシップの関係を明示的にモデル化する機構を提案する。
一定の規則性条件下では,提案フレームワークは,欠落データが存在する場合でも,漸近的整合性と選択的整合性の両方を達成することを実証する。
この統合戦略はモデルベースのクラスタリングの能力と効率を大幅に向上させ、複雑な欠落データパターンの存在下で均質な部分群を定義する情報変数を識別する手法を進歩させる。
計算効率を含むフレームワークの性能はシミュレーションにより評価され、合成および実世界の転写データセットを用いて実証される。
関連論文リスト
- Fréchet regression with implicit denoising and multicollinearity reduction [1.5771347525430772]
Fr'echet回帰は、距離空間におけるモデル複素応答に線形回帰を拡張する。
本稿では,入力変数と複数応答の関係を明示的にモデル化するGlobal Fr'echet re gressionモデルの拡張について述べる。
論文 参考訳(メタデータ) (2024-12-24T08:02:28Z) - MISFEAT: Feature Selection for Subgroups with Systematic Missing Data [8.063972429611365]
サブグループのオールに対していくつかの特徴値が欠落するシナリオである、体系的な欠落データという課題に対処する。
我々のゴールは、ある一定サイズのトップK特徴部分集合を、ターゲット変数との最も高い結合情報で識別することである。
異種グラフニューラルネットワークを用いた一般化可能なモデルを提案し,特徴-部分群-ターゲット変数間の相互依存性を同定する。
論文 参考訳(メタデータ) (2024-12-09T17:59:59Z) - Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models [83.02797560769285]
Data-Free Meta-Learning (DFML)は、トレーニング済みモデルのコレクションから、元のデータにアクセスせずに知識を抽出することを目的としている。
現在の手法は、事前訓練されたモデル間の不均一性を見落とし、タスクの衝突による性能低下につながることが多い。
論文 参考訳(メタデータ) (2024-05-26T13:11:55Z) - Interpretable Clustering with the Distinguishability Criterion [0.4419843514606336]
本稿では,特定クラスタの分離可能性の定量化と推定クラスタ構成の検証を行うために,分散可能性基準と呼ばれるグローバルな基準を提案する。
本稿では、分散可能性基準と多くの一般的なクラスタリング手順を統合した損失関数に基づく計算フレームワークを提案する。
シミュレーション研究および実データアプリケーションに基づく包括的データ解析の結果とともに,これらの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-24T16:38:15Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Adaptive Sampling Strategies to Construct Equitable Training Datasets [0.7036032466145111]
コンピュータビジョンから自然言語処理までの領域では、機械学習モデルがスタークの相違を示すことが示されている。
これらのパフォーマンスギャップに寄与する要因の1つは、モデルがトレーニングしたデータに表現力の欠如である。
公平なトレーニングデータセットを作成する際の問題を形式化し、この問題に対処するための統計的枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-31T19:19:30Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - Group Heterogeneity Assessment for Multilevel Models [68.95633278540274]
多くのデータセットは固有のマルチレベル構造を含む。
この構造を考慮に入れることは、そのようなデータ上で行われた統計分析の正確性と校正にとって重要である。
本稿では,データ内のグループ化変数のレベルの違いを効率的に評価するフレキシブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-06T12:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。