論文の概要: Model-based Clustering using Automatic Differentiation: Confronting
Misspecification and High-Dimensional Data
- arxiv url: http://arxiv.org/abs/2007.12786v1
- Date: Wed, 8 Jul 2020 10:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 12:55:35.969420
- Title: Model-based Clustering using Automatic Differentiation: Confronting
Misspecification and High-Dimensional Data
- Title(参考訳): 自動微分を用いたモデルベースクラスタリング:ミス種別と高次元データの比較
- Authors: Siva Rajesh Kasa, Vaibhav Rajan
- Abstract要約: ガウス混合モデルを用いたモデルベースクラスタリングの実用上重要な2つの事例について検討する。
本研究では,EMのクラスタリング性能が,不特定な場合のグラディエントDescentと比較して向上していることを示す。
そこで本稿では,一対の部品間のKulback Leibler分散に基づく新たなペナルティ項を提案する。
- 参考スコア(独自算出の注目度): 6.053629733936546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study two practically important cases of model based clustering using
Gaussian Mixture Models: (1) when there is misspecification and (2) on high
dimensional data, in the light of recent advances in Gradient Descent (GD)
based optimization using Automatic Differentiation (AD). Our simulation studies
show that EM has better clustering performance, measured by Adjusted Rand
Index, compared to GD in cases of misspecification, whereas on high dimensional
data GD outperforms EM. We observe that both with EM and GD there are many
solutions with high likelihood but poor cluster interpretation. To address this
problem we design a new penalty term for the likelihood based on the Kullback
Leibler divergence between pairs of fitted components. Closed form expressions
for the gradients of this penalized likelihood are difficult to derive but AD
can be done effortlessly, illustrating the advantage of AD-based optimization.
Extensions of this penalty for high dimensional data and for model selection
are discussed. Numerical experiments on synthetic and real datasets demonstrate
the efficacy of clustering using the proposed penalized likelihood approach.
- Abstract(参考訳): ガウス混合モデルを用いたモデルベースクラスタリングの実用上重要な2つの事例について検討する:(1)不特定性がある場合、(2)高次元データに基づく場合、自動微分(AD)を用いたグラディエントD(GD)に基づく最適化の最近の進歩を踏まえて。
シミュレーションにより,EMのクラスタリング性能は,不特定の場合のGDに比べて向上し,高次元データGDではEMより優れていた。
em と gd はともに高い確率でクラスタ解釈が貧弱な多くの解が存在することを観測する。
この問題に対処するため、我々は、適合するコンポーネントのペア間のkullback leiblerの発散に基づく可能性の新たなペナルティ項を設計する。
このペナル化確率の勾配の閉形式表現は導出が難しいが、ADを最適化する利点を説明できる。
高次元データとモデル選択のためのこのペナルティの拡張について論じる。
合成および実データセットに関する数値実験により,提案手法を用いたクラスタリングの有効性が示された。
関連論文リスト
- A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。
ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T17:46:18Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data [0.0]
我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。
このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
論文 参考訳(メタデータ) (2023-02-06T23:34:51Z) - Likelihood Adjusted Semidefinite Programs for Clustering Heterogeneous
Data [16.153709556346417]
クラスタリングは広くデプロイされた学習ツールである。
iLA-SDPはEMよりも感度が低く、高次元データでは安定である。
論文 参考訳(メタデータ) (2022-09-29T21:03:13Z) - Hierarchical mixtures of Gaussians for combined dimensionality reduction
and clustering [5.819751855626331]
このような2段階モデルの族が、ガウスの階層混合(HMoG)と呼ばれる単一の階層モデルにどのように結合できるかを示す。
HMoGは次元縮小とクラスタリングの両方を同時に捕捉し、その性能は確率関数によって閉形式で定量化される。
HMoGを合成データおよびRNAシークエンシングデータに適用し、2段階モデルの限界を超える方法を示す。
論文 参考訳(メタデータ) (2022-06-10T02:03:18Z) - Scalable Regularised Joint Mixture Models [2.0686407686198263]
多くの応用において、データは異なる基底分布を持つ潜在群にまたがるという意味で不均一である。
我々は,(i)明示的多変量特徴分布,(ii)高次元回帰モデル,(iii)潜在群ラベルの連成学習を可能にする異種データに対するアプローチを提案する。
このアプローチは明らかに高次元において有効であり、計算効率のためのデータ削減と、特徴数が大きければ鍵信号を保持する再重み付けスキームを組み合わせる。
論文 参考訳(メタデータ) (2022-05-03T13:38:58Z) - An Adaptive Alternating-direction-method-based Nonnegative Latent Factor
Model [2.857044909410376]
交互方向法に基づく非負潜在因子モデルにより、高次元および不完全行列への効率的な表現学習を行うことができる。
本稿では,超パラメータ適応を粒子群最適化の原理に従って実装した適応交互方向法に基づく非負遅延因子モデルを提案する。
産業応用によって生成される非負のHDI行列に関する実証的研究は、A2NLFが計算および記憶効率においていくつかの最先端モデルより優れており、HDI行列の欠落データに対する高い競合推定精度を維持していることを示している。
論文 参考訳(メタデータ) (2022-04-11T03:04:26Z) - BCD Nets: Scalable Variational Approaches for Bayesian Causal Discovery [97.79015388276483]
構造方程式モデル(SEM)は、有向非巡回グラフ(DAG)を介して表される因果関係を推論する効果的な枠組みである。
近年の進歩により、観測データからDAGの有効最大点推定が可能となった。
線形ガウス SEM を特徴付ける DAG 上の分布を推定するための変分フレームワークである BCD Nets を提案する。
論文 参考訳(メタデータ) (2021-12-06T03:35:21Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。