論文の概要: Finite mixture models do not reliably learn the number of components
- arxiv url: http://arxiv.org/abs/2007.04470v3
- Date: Wed, 7 Jul 2021 15:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 13:40:59.201137
- Title: Finite mixture models do not reliably learn the number of components
- Title(参考訳): 有限混合モデルでは成分の数を確実に学べない
- Authors: Diana Cai, Trevor Campbell, Tamara Broderick
- Abstract要約: 一般的な提案は、コンポーネントの数に先立って有限混合モデル(FMM)を使用することである。
過去の研究は、結果のFMMコンポーネントカウントの後方が一貫したことを示している。
しかし、一貫性は、コンポーネントの可能性が完全に指定されているという仮定を必要とする。
本稿では,FMM成分数と後部偏差が最少のモデルであっても,FMM成分数と後部偏差が生じることを証明した。
- 参考スコア(独自算出の注目度): 29.9892521137588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientists and engineers are often interested in learning the number of
subpopulations (or components) present in a data set. A common suggestion is to
use a finite mixture model (FMM) with a prior on the number of components. Past
work has shown the resulting FMM component-count posterior is consistent; that
is, the posterior concentrates on the true, generating number of components.
But consistency requires the assumption that the component likelihoods are
perfectly specified, which is unrealistic in practice. In this paper, we add
rigor to data-analysis folk wisdom by proving that under even the slightest
model misspecification, the FMM component-count posterior diverges: the
posterior probability of any particular finite number of components converges
to 0 in the limit of infinite data. Contrary to intuition, posterior-density
consistency is not sufficient to establish this result. We develop novel
sufficient conditions that are more realistic and easily checkable than those
common in the asymptotics literature. We illustrate practical consequences of
our theory on simulated and real data.
- Abstract(参考訳): 科学者やエンジニアは、データセットに存在するサブポピュレーション(またはコンポーネント)の数を学ぶことに関心がある。
一般的な提案は、コンポーネントの数に先立って有限混合モデル(FMM)を使用することである。
過去の研究は、結果のFMM成分数後部は一貫したものであり、つまり、後部は真で生成する成分数に集中している。
しかし、一貫性にはコンポーネントの可能性が完全に特定されているという仮定が必要です。
本稿では,データ分析の民間知恵に厳密さを付加し,FMM成分数の後続確率が無限データの範囲内において0に収束することを示す。
直観に反して、後密度の一貫性は、この結果を確立するのに十分ではない。
我々は,無症状文学でよく見られるものよりも現実的で,容易に確認可能な,新しい十分な条件を開発する。
シミュレーションデータおよび実データに対する理論の実際的な結果を示す。
関連論文リスト
- Estimating the Number of Components in Finite Mixture Models via Variational Approximation [8.468023518807408]
変動ベイズを用いた有限混合モデル(FMM)における成分数選択法を提案する。
平均場(MF)変動近似から導かれるエビデンス下界(ELBO)の上限値と下界値との整合性を確立した。
証明の副産物として、MF近似が後部分布の安定な挙動(モデル特異性に相応しい)を継承することを示す。
論文 参考訳(メタデータ) (2024-04-25T17:00:24Z) - A Fourier Approach to the Parameter Estimation Problem for One-dimensional Gaussian Mixture Models [21.436254507839738]
一次元ガウス混合モデルにおけるパラメータ推定のための新しいアルゴリズムを提案する。
本アルゴリズムは,EMアルゴリズムと比較して,確率,AIC,BICのスコアがよいことを示す。
論文 参考訳(メタデータ) (2024-04-19T03:53:50Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - TACTiS: Transformer-Attentional Copulas for Time Series [76.71406465526454]
時間変化量の推定は、医療や金融などの分野における意思決定の基本的な構成要素である。
本稿では,アテンションベースデコーダを用いて関節分布を推定する多元的手法を提案する。
本研究では,本モデルが実世界の複数のデータセットに対して最先端の予測を生成することを示す。
論文 参考訳(メタデータ) (2022-02-07T21:37:29Z) - Shared Independent Component Analysis for Multi-Subject Neuroimaging [107.29179765643042]
本稿では,ShICA (Shared Independent Component Analysis) を導入し,各ビューを加法ガウス雑音によって汚染された共有独立成分の線形変換としてモデル化する。
このモデルは、成分がガウス的でないか、あるいはノイズ分散に十分な多様性がある場合、同定可能であることを示す。
我々は,fMRIおよびMEGデータセットの実証的証拠として,ShICAが代替品よりも正確な成分推定を行うことを示す。
論文 参考訳(メタデータ) (2021-10-26T08:54:41Z) - Robust Model Selection and Nearly-Proper Learning for GMMs [26.388358539260473]
学習理論では、データは有限混合モデルから生成されるという標準的な仮定がある。しかし、コンポーネントの数が事前に分かっていないときに何が起こるのか。
対数係数内の分布に適合するために必要な最小コンポーネント数を、およそ決定することができる。
論文 参考訳(メタデータ) (2021-06-05T01:58:40Z) - Model-based multi-parameter mapping [0.0]
定量的MRイメージングは、よりリッチな情報の内容と標準化された測定基準のためにますます好まれている。
推定はしばしば、異なる量のデータを分離して解くために、データのノイズサブセットを仮定する。
代わりに、生成モデルは定式化され、パラメータ推定を共同で回復するために反転することができる。
論文 参考訳(メタデータ) (2021-02-02T17:00:11Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Distributed, partially collapsed MCMC for Bayesian Nonparametrics [68.5279360794418]
ディリクレ法やベータ・ベルヌーリ法のようなモデルでよく用いられる完全無作為測度は独立な部分測度に分解可能であるという事実を利用する。
この分解を用いて、潜在測度を、インスタンス化された成分のみを含む有限測度と、他のすべての成分を含む無限測度に分割する。
得られたハイブリッドアルゴリズムは、収束保証を犠牲にすることなくスケーラブルな推論を可能にすることができる。
論文 参考訳(メタデータ) (2020-01-15T23:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。