論文の概要: Finite mixture models do not reliably learn the number of components
- arxiv url: http://arxiv.org/abs/2007.04470v3
- Date: Wed, 7 Jul 2021 15:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 13:40:59.201137
- Title: Finite mixture models do not reliably learn the number of components
- Title(参考訳): 有限混合モデルでは成分の数を確実に学べない
- Authors: Diana Cai, Trevor Campbell, Tamara Broderick
- Abstract要約: 一般的な提案は、コンポーネントの数に先立って有限混合モデル(FMM)を使用することである。
過去の研究は、結果のFMMコンポーネントカウントの後方が一貫したことを示している。
しかし、一貫性は、コンポーネントの可能性が完全に指定されているという仮定を必要とする。
本稿では,FMM成分数と後部偏差が最少のモデルであっても,FMM成分数と後部偏差が生じることを証明した。
- 参考スコア(独自算出の注目度): 29.9892521137588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientists and engineers are often interested in learning the number of
subpopulations (or components) present in a data set. A common suggestion is to
use a finite mixture model (FMM) with a prior on the number of components. Past
work has shown the resulting FMM component-count posterior is consistent; that
is, the posterior concentrates on the true, generating number of components.
But consistency requires the assumption that the component likelihoods are
perfectly specified, which is unrealistic in practice. In this paper, we add
rigor to data-analysis folk wisdom by proving that under even the slightest
model misspecification, the FMM component-count posterior diverges: the
posterior probability of any particular finite number of components converges
to 0 in the limit of infinite data. Contrary to intuition, posterior-density
consistency is not sufficient to establish this result. We develop novel
sufficient conditions that are more realistic and easily checkable than those
common in the asymptotics literature. We illustrate practical consequences of
our theory on simulated and real data.
- Abstract(参考訳): 科学者やエンジニアは、データセットに存在するサブポピュレーション(またはコンポーネント)の数を学ぶことに関心がある。
一般的な提案は、コンポーネントの数に先立って有限混合モデル(FMM)を使用することである。
過去の研究は、結果のFMM成分数後部は一貫したものであり、つまり、後部は真で生成する成分数に集中している。
しかし、一貫性にはコンポーネントの可能性が完全に特定されているという仮定が必要です。
本稿では,データ分析の民間知恵に厳密さを付加し,FMM成分数の後続確率が無限データの範囲内において0に収束することを示す。
直観に反して、後密度の一貫性は、この結果を確立するのに十分ではない。
我々は,無症状文学でよく見られるものよりも現実的で,容易に確認可能な,新しい十分な条件を開発する。
シミュレーションデータおよび実データに対する理論の実際的な結果を示す。
関連論文リスト
- Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation
for Time Series [49.992908221544624]
時系列データは、しばしば多くの欠落した値を示し、これは時系列計算タスクである。
従来の深層学習法は時系列計算に有効であることが示されている。
本研究では,不確実性のある高精度な計算を行う非生成時系列計算法を提案する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Convergence for score-based generative modeling with polynomial
complexity [9.953088581242845]
我々は、Scoreベースの生成モデルの背後にあるコアメカニックに対する最初の収束保証を証明した。
以前の作品と比較すると、時間的に指数関数的に増加するエラーや、次元の呪いに苦しむエラーは発生しない。
予測器・相関器はどちらの部分のみを使用するよりも収束性が高いことを示す。
論文 参考訳(メタデータ) (2022-06-13T14:57:35Z) - Refined Convergence Rates for Maximum Likelihood Estimation under Finite
Mixture Models [13.769786711365104]
有限混合モデル下での最大極大推定(MLE)の収束率を再検討する。
典型的には, ペナル化されたMLEの成分のサブセットは, 過去に予想されていたよりもはるかに早く収束することが示されている。
論文 参考訳(メタデータ) (2022-02-17T17:46:40Z) - Shared Independent Component Analysis for Multi-Subject Neuroimaging [107.29179765643042]
本稿では,ShICA (Shared Independent Component Analysis) を導入し,各ビューを加法ガウス雑音によって汚染された共有独立成分の線形変換としてモデル化する。
このモデルは、成分がガウス的でないか、あるいはノイズ分散に十分な多様性がある場合、同定可能であることを示す。
我々は,fMRIおよびMEGデータセットの実証的証拠として,ShICAが代替品よりも正確な成分推定を行うことを示す。
論文 参考訳(メタデータ) (2021-10-26T08:54:41Z) - Robust Model Selection and Nearly-Proper Learning for GMMs [26.388358539260473]
学習理論では、データは有限混合モデルから生成されるという標準的な仮定がある。しかし、コンポーネントの数が事前に分かっていないときに何が起こるのか。
対数係数内の分布に適合するために必要な最小コンポーネント数を、およそ決定することができる。
論文 参考訳(メタデータ) (2021-06-05T01:58:40Z) - Model-based multi-parameter mapping [0.0]
定量的MRイメージングは、よりリッチな情報の内容と標準化された測定基準のためにますます好まれている。
推定はしばしば、異なる量のデータを分離して解くために、データのノイズサブセットを仮定する。
代わりに、生成モデルは定式化され、パラメータ推定を共同で回復するために反転することができる。
論文 参考訳(メタデータ) (2021-02-02T17:00:11Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Distributed, partially collapsed MCMC for Bayesian Nonparametrics [68.5279360794418]
ディリクレ法やベータ・ベルヌーリ法のようなモデルでよく用いられる完全無作為測度は独立な部分測度に分解可能であるという事実を利用する。
この分解を用いて、潜在測度を、インスタンス化された成分のみを含む有限測度と、他のすべての成分を含む無限測度に分割する。
得られたハイブリッドアルゴリズムは、収束保証を犠牲にすることなくスケーラブルな推論を可能にすることができる。
論文 参考訳(メタデータ) (2020-01-15T23:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。