論文の概要: A Hybrid Mixture Approach for Clustering and Characterizing Cancer Data
- arxiv url: http://arxiv.org/abs/2507.14380v1
- Date: Fri, 18 Jul 2025 22:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.867094
- Title: A Hybrid Mixture Approach for Clustering and Characterizing Cancer Data
- Title(参考訳): がんデータのクラスタリングとキャラクタリゼーションのためのハイブリッド混合手法
- Authors: Kazeem Kareem, Fan Dai,
- Abstract要約: 最新のバイオメディカルデータは、従来のクラスタ分析においてモデル推定を行うのが困難である。
本稿では,クラスタとモデルパラメータを効率的に推定するハイブリッド行列フリー計算手法を提案する。
本アルゴリズムは, 乳がんの悪性度を, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度,
- 参考スコア(独自算出の注目度): 0.07673339435080444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based clustering is widely used for identifying and distinguishing types of diseases. However, modern biomedical data coming with high dimensions make it challenging to perform the model estimation in traditional cluster analysis. The incorporation of factor analyzer into the mixture model provides a way to characterize the large set of data features, but the current estimation method is computationally impractical for massive data due to the intrinsic slow convergence of the embedded algorithms, and the incapability to vary the size of the factor analyzers, preventing the implementation of a generalized mixture of factor analyzers and further characterization of the data clusters. We propose a hybrid matrix-free computational scheme to efficiently estimate the clusters and model parameters based on a Gaussian mixture along with generalized factor analyzers to summarize the large number of variables using a small set of underlying factors. Our approach outperforms the existing method with faster convergence while maintaining high clustering accuracy. Our algorithms are applied to accurately identify and distinguish types of breast cancer based on large tumor samples, and to provide a generalized characterization for subtypes of lymphoma using massive gene records.
- Abstract(参考訳): モデルベースのクラスタリングは、病気のタイプを特定し、区別するために広く使われている。
しかし, 従来のクラスター分析では, モデル推定が困難である。
因子分析器を混合モデルに組み込むことにより、大量のデータ特徴を特徴付けることができるが、現在の推定法は、組込みアルゴリズムの内在的な緩やかな収束や、因子解析器のサイズの変化が不可能なため、大量のデータに対して計算的に非現実的であり、因子解析器の一般化された混合の実装やデータクラスタのさらなる特徴付けを防止することができる。
本稿では,ガウス混合と一般化因子解析器を併用したクラスタとモデルパラメータを効率的に推定するハイブリッド行列フリー計算手法を提案する。
提案手法は,クラスタリング精度を高く保ちながら,より高速な収束で既存手法より優れている。
本アルゴリズムは, 乳がんの悪性度を, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度, 悪性度を判定する。
関連論文リスト
- A Hybrid Mixture of $t$-Factor Analyzers for Clustering High-dimensional Data [0.07673339435080444]
本稿では,$t$-factor Analysisr (MtFA) の混合モデルを推定するための新しいハイブリッド手法を開発する。
提案手法の有効性は,従来の手法と比較して計算効率が優れていることを示すシミュレーションによって実証される。
本手法はガンマ線バーストのクラスタリングに応用され,ガンマ線バーストが不均質なサブ集団を持つという文献のいくつかの主張を補強し,推定群の特徴を与える。
論文 参考訳(メタデータ) (2025-04-29T18:59:58Z) - Simple and Scalable Algorithms for Cluster-Aware Precision Medicine [0.0]
共同クラスタリングと埋め込みに対するシンプルでスケーラブルなアプローチを提案する。
この新しいクラスタ対応の埋め込みアプローチは、現在の共同埋め込みとクラスタリング法の複雑さと限界を克服する。
当社のアプローチでは,ユーザが希望するクラスタ数を選択する必要はなく,階層的にクラスタ化された埋め込みの解釈可能なデンドログラムを生成する。
論文 参考訳(メタデータ) (2022-11-29T19:27:26Z) - RandomSCM: interpretable ensembles of sparse classifiers tailored for
omics data [59.4141628321618]
決定規則の結合や解離に基づくアンサンブル学習アルゴリズムを提案する。
モデルの解釈可能性により、高次元データのバイオマーカー発見やパターン発見に有用である。
論文 参考訳(メタデータ) (2022-08-11T13:55:04Z) - Generalization Metrics for Practical Quantum Advantage in Generative
Models [68.8204255655161]
生成モデリングは量子コンピュータにとって広く受け入れられている自然のユースケースである。
我々は,アルゴリズムの一般化性能を計測して,生成モデリングのための実用的な量子優位性を探索する,単純で曖昧な手法を構築した。
シミュレーションの結果、我々の量子にインスパイアされたモデルは、目に見えない、有効なサンプルを生成するのに、最大で68倍の費用がかかります。
論文 参考訳(メタデータ) (2022-01-21T16:35:35Z) - Tk-merge: Computationally Efficient Robust Clustering Under General
Assumptions [0.0]
トリミングされたk平均と階層的アグロメレーションに基づく2段階のハイブリッドロバストクラスタリングアルゴリズムを提案する。
また、本手法の自然な一般化と、データ駆動方式で汚染量を推定する適応的な手順を提案する。
論文 参考訳(メタデータ) (2022-01-17T13:05:05Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z) - Flexible Clustering with a Sparse Mixture of Generalized Hyperbolic Distributions [6.839746711757701]
モデルベースのクラスタリングに対する従来のアプローチは、高次元のデータでは失敗することが多い。
一般化双曲分布の混合に対する成分スケール行列のパラメトリゼーションを提案する。
解析的に実現可能な予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-03-12T17:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。