論文の概要: Regularization and Optimization in Model-Based Clustering
- arxiv url: http://arxiv.org/abs/2302.02450v2
- Date: Mon, 5 Feb 2024 18:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 07:03:45.368679
- Title: Regularization and Optimization in Model-Based Clustering
- Title(参考訳): モデルベースクラスタリングにおける規則化と最適化
- Authors: Raphael Araujo Sampaio, Joaquim Dias Garcia, Marcus Poggi, Thibaut
Vidal
- Abstract要約: k-平均アルゴリズムの変種は、本質的に同じ球面ガウスの混合と、そのような分布から大きく逸脱するデータに適合する。
一般のGMMに対してより効率的な最適化アルゴリズムを開発し、これらのアルゴリズムと正規化戦略を組み合わせ、過度な適合を避ける。
これらの結果から, GMM と k-means 法の間の現状に新たな光を当て, 一般 GMM をデータ探索に利用することが示唆された。
- 参考スコア(独自算出の注目度): 4.096453902709292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to their conceptual simplicity, k-means algorithm variants have been
extensively used for unsupervised cluster analysis. However, one main
shortcoming of these algorithms is that they essentially fit a mixture of
identical spherical Gaussians to data that vastly deviates from such a
distribution. In comparison, general Gaussian Mixture Models (GMMs) can fit
richer structures but require estimating a quadratic number of parameters per
cluster to represent the covariance matrices. This poses two main issues: (i)
the underlying optimization problems are challenging due to their larger number
of local minima, and (ii) their solutions can overfit the data. In this work,
we design search strategies that circumvent both issues. We develop more
effective optimization algorithms for general GMMs, and we combine these
algorithms with regularization strategies that avoid overfitting. Through
extensive computational analyses, we observe that optimization or
regularization in isolation does not substantially improve cluster recovery.
However, combining these techniques permits a completely new level of
performance previously unachieved by k-means algorithm variants, unraveling
vastly different cluster structures. These results shed new light on the
current status quo between GMM and k-means methods and suggest the more
frequent use of general GMMs for data exploration. To facilitate such
applications, we provide open-source code as well as Julia packages
(UnsupervisedClustering.jl and RegularizedCovarianceMatrices.jl) implementing
the proposed techniques.
- Abstract(参考訳): 概念的単純さから、k平均アルゴリズムの変種は教師なしクラスタ分析に広く用いられている。
しかし、これらのアルゴリズムの主な欠点の1つは、本質的に同じ球面ガウスの混合をそのような分布から大きく逸脱するデータに適合させることである。
対照的に、ガウス混合モデル(GMM)はよりリッチな構造に適合するが、共分散行列を表現するためにクラスタ毎に2次数のパラメータを推定する必要がある。
これは2つの大きな問題をもたらします
(i) 局所最小値の多さにより、基礎となる最適化問題は困難である。
(ii) それらのソリューションはデータに過度に適合する。
本研究では,両問題を回避した検索戦略を設計する。
一般GMMのためのより効率的な最適化アルゴリズムを開発し、これらのアルゴリズムと正規化戦略を組み合わせて過度な適合を避ける。
より広範な計算解析により,クラスタの回復性は著しく向上しないことが明らかとなった。
しかしながら、これらのテクニックを組み合わせることで、これまでk-meansアルゴリズムの変種によって実現されていなかった全く新しいレベルのパフォーマンスが実現され、非常に異なるクラスタ構造を解き放ちます。
これらの結果から, GMM と k-means 法の間の現状に新たな光を当て, 一般 GMM をデータ探索に利用することが示唆された。
このようなアプリケーションを容易にするため、提案手法を実装したJuliaパッケージ(UnsupervisedClustering.jlとRegularizedCovarianceMatrices.jl)とともに、オープンソースコードを提供する。
関連論文リスト
- A Fresh Look at Generalized Category Discovery through Non-negative Matrix Factorization [83.12938977698988]
Generalized Category Discovery (GCD) は、ラベル付きベースデータを用いて、ベース画像と新規画像の両方を分類することを目的としている。
現在のアプローチでは、コサイン類似性に基づく共起行列 $barA$ の固有の最適化に不適切に対処している。
本稿では,これらの欠陥に対処するNon-Negative Generalized Category Discovery (NN-GCD) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T07:24:11Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Algorithme EM r\'egularis\'e [0.0]
本稿では,より少ないサンプルサイズに対応するために,事前知識を効率的に活用するEMアルゴリズムの正規化バージョンを提案する。
実データを用いた実験では,クラスタリングのための提案アルゴリズムの性能が向上した。
論文 参考訳(メタデータ) (2023-07-04T23:19:25Z) - Regularized EM algorithm [9.367612782346205]
本稿では,従来の知識を効率的に活用し,LSSの状況に対処できる,GMM-sの正規化EMアルゴリズムを提案する。
コンバージェンスホールドの理論的保証は、構造化共分散行列モデルや低サンプル設定のEMアルゴリズムの性能向上につながることを示す。
論文 参考訳(メタデータ) (2023-03-27T08:32:20Z) - A Hybrid Chimp Optimization Algorithm and Generalized Normal
Distribution Algorithm with Opposition-Based Learning Strategy for Solving
Data Clustering Problems [0.0]
本稿では、類似データと異種データを異なるグループに分類するコネクティビティ原則に基づいて、クラスタを分離するデータクラスタリングについて検討する。
メタヒューリスティック最適化アルゴリズムとインテリジェンスに基づく手法が,最適解を妥当な時間で達成するために導入された。
論文 参考訳(メタデータ) (2023-02-16T23:29:01Z) - A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data [0.0]
我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。
このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
論文 参考訳(メタデータ) (2023-02-06T23:34:51Z) - Late Fusion Multi-view Clustering via Global and Local Alignment
Maximization [61.89218392703043]
マルチビュークラスタリング(MVC)は、異なるビューからの補完情報を最適に統合し、クラスタリング性能を改善する。
既存のアプローチの多くは、クラスタリングに最適な類似性行列を学ぶために、複数の事前定義された類似性を直接融合する。
これらの問題に対処するために、アライメントを通してレイトフュージョンMVCを提案する。
論文 参考訳(メタデータ) (2022-08-02T01:49:31Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - An Efficient Smoothing Proximal Gradient Algorithm for Convex Clustering [2.5182813818441945]
最近導入された凸クラスタリング手法は、凸最適化問題としてクラスタリングを定式化している。
最先端の凸クラスタリングアルゴリズムは大規模な計算とメモリ空間を必要とする。
本稿では,凸クラスタリングのための非常に効率的なスムーズな勾配法 (Sproga) を提案する。
論文 参考訳(メタデータ) (2020-06-22T20:02:59Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。