論文の概要: Bayesian nonparametric mixture inconsistency for the number of
components: How worried should we be in practice?
- arxiv url: http://arxiv.org/abs/2207.14717v1
- Date: Fri, 29 Jul 2022 14:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 13:13:44.361149
- Title: Bayesian nonparametric mixture inconsistency for the number of
components: How worried should we be in practice?
- Title(参考訳): ベイズ的非パラメトリック混合は成分数に矛盾する:実際どれくらい心配すべきなのか?
- Authors: Yannis Chaumeny, Johan van der Molen Moris, Anthony C. Davison, Paul
D. W. Kirk
- Abstract要約: クラスタリングのための有限混合(MFM)とディリクレプロセス混合(DPM)の混合について考察する。
最近の理論では、DPMは大規模なサンプルのクラスター数を過大評価している。
シミュレーションによるこれらの実践的考察と遺伝子発現データへの応用について検討する。
- 参考スコア(独自算出の注目度): 1.6959319157216468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the Bayesian mixture of finite mixtures (MFMs) and Dirichlet
process mixture (DPM) models for clustering. Recent asymptotic theory has
established that DPMs overestimate the number of clusters for large samples and
that estimators from both classes of models are inconsistent for the number of
clusters under misspecification, but the implications for finite sample
analyses are unclear. The final reported estimate after fitting these models is
often a single representative clustering obtained using an MCMC summarisation
technique, but it is unknown how well such a summary estimates the number of
clusters. Here we investigate these practical considerations through
simulations and an application to gene expression data, and find that (i) DPMs
overestimate the number of clusters even in finite samples, but only to a
limited degree that may be correctable using appropriate summaries, and (ii)
misspecification can lead to considerable overestimation of the number of
clusters in both DPMs and MFMs, but results are nevertheless often still
interpretable. We provide recommendations on MCMC summarisation and suggest
that although the more appealing asymptotic properties of MFMs provide strong
motivation to prefer them, results obtained using MFMs and DPMs are often very
similar in practice.
- Abstract(参考訳): 有限混合系 (mfms) とディリクレ過程混合系 (dpm) のベイズ混合系のクラスタリングについて考察する。
近年の漸近理論では、DPMは大きなサンプルのクラスタ数を過大評価し、両方のモデルのクラスの推定器は不特定なクラスターの数に対して矛盾するが、有限標本解析における意味は明らかでない。
これらのモデルに適合した後の最終的な推定は、MCMC要約法を用いて得られた単一の代表クラスタリングであることが多いが、そのような要約がクラスタ数をどの程度正確に見積もっているかは分かっていない。
ここでは、シミュレーションによるこれらの実践的考察と遺伝子発現データへの応用について検討し、それを見つける。
(i) DPM は有限標本においてもクラスタ数を過大評価するが、適切な要約を用いて修正できるのは限られた程度に限られる。
(II) DPM と MFM の双方のクラスタ数がかなり過大評価されることがあるが、それでもしばしば解釈可能である。
我々はMCMCの要約を推奨し、MCMのより魅力的な漸近特性はそれらを好む強い動機を与えるが、MFMとDPMを用いて得られた結果は実際に非常によく似ていることを示唆する。
関連論文リスト
- Adaptive Fuzzy C-Means with Graph Embedding [84.47075244116782]
ファジィクラスタリングアルゴリズムは、大まかに2つの主要なグループに分類できる: ファジィC平均法(FCM)と混合モデルに基づく方法。
本稿では,FCMを用いたクラスタリングモデルを提案する。
論文 参考訳(メタデータ) (2024-05-22T08:15:50Z) - Mixture of Coupled HMMs for Robust Modeling of Multivariate Healthcare
Time Series [7.5986411724707095]
隠れマルコフモデル(M-CHMM)を結合した新しいモデルのクラスを提案する。
モデル学習を実現するために、CHMM内の潜伏変数のシーケンスをサンプリングする2つのアルゴリズムを導出する。
既存の推論手法と比較して,アルゴリズムは計算可能であり,混合性が向上し,推定精度が向上する。
論文 参考訳(メタデータ) (2023-11-14T02:55:37Z) - On the Semi-supervised Expectation Maximization [5.481082183778667]
ラベル付きおよびラベルなしサンプルからモデルを学習するための半教師付きケースに焦点を当てる。
本分析は, 指数族混合モデルにおいて, ラベル付き試料が収束率をいかに向上させるかを明らかにした。
論文 参考訳(メタデータ) (2022-11-01T15:42:57Z) - Rethinking Collaborative Metric Learning: Toward an Efficient
Alternative without Negative Sampling [156.7248383178991]
コラボレーティブ・メトリック・ラーニング(CML)パラダイムはレコメンデーション・システム(RS)分野に広く関心を集めている。
負のサンプリングが一般化誤差のバイアス付き推定に繋がることがわかった。
そこで我々は,SFCML (textitSampling-Free Collaborative Metric Learning) という名前のCMLに対して,負のサンプリングを伴わない効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T08:50:22Z) - Entropy Minimizing Matrix Factorization [102.26446204624885]
NMF(Nonnegative Matrix Factorization)は、広く使用されているデータ分析技術であり、多くの実際のタスクで印象的な結果をもたらしました。
本研究では,上述の問題に対処するために,EMMF (Entropy Minimizing Matrix Factorization framework) を開発した。
通常、外れ値が通常のサンプルよりもはるかに小さいことを考えると、行列分解のために新しいエントロピー損失関数が確立される。
論文 参考訳(メタデータ) (2021-03-24T21:08:43Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - A Rigorous Link Between Self-Organizing Maps and Gaussian Mixture Models [78.6363825307044]
本研究は、自己組織化マップ(SOM)とガウス混合モデル(GMM)の関係を数学的に扱うものである。
我々は,エネルギーベースSOMモデルを勾配勾配下降と解釈できることを示した。
このリンクはSOMsを生成確率モデルとして扱うことができ、SOMsを使用して外れ値を検出したりサンプリングしたりするための正式な正当性を与える。
論文 参考訳(メタデータ) (2020-09-24T14:09:04Z) - Consistent Estimation of Identifiable Nonparametric Mixture Models from
Grouped Observations [84.81435917024983]
この研究は、グループ化された観測から任意の同定可能な混合モデルを一貫して推定するアルゴリズムを提案する。
ペア化された観測のために実践的な実装が提供され、アプローチは既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-06-12T20:44:22Z) - Handling missing data in model-based clustering [0.0]
欠損データの存在下でガウス混合体を適合させる2つの方法を提案する。
どちらの手法もデータ拡張のためにモンテカルロ予測最大化アルゴリズムの変種を用いる。
提案手法はクラスタ同定と密度推定の両面で多重計算手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-06-04T15:36:31Z) - Robust M-Estimation Based Bayesian Cluster Enumeration for Real
Elliptically Symmetric Distributions [5.137336092866906]
データセットにおける最適なクラスタ数のロバストな決定は、広範囲のアプリケーションにおいて必須の要素である。
本稿では任意のReally Symmetric(RES)分散混合モデルで使用できるように一般化する。
サンプルサイズが有限であるデータセットに対して,ロバストな基準を導出するとともに,大規模なサンプルサイズでの計算コスト削減のための近似を提供する。
論文 参考訳(メタデータ) (2020-05-04T11:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。