論文の概要: Sparse GEMINI for Joint Discriminative Clustering and Feature Selection
- arxiv url: http://arxiv.org/abs/2302.03391v1
- Date: Tue, 7 Feb 2023 10:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 16:43:46.413077
- Title: Sparse GEMINI for Joint Discriminative Clustering and Feature Selection
- Title(参考訳): 共同識別クラスタリングと特徴選択のためのスパースジェミニ
- Authors: Louis Ohl, Pierre-Alexandre Mattei, Charles Bouveyron, Micka\"el
Leclercq, Arnaud Droit and Fr\'ed\'eric Precioso
- Abstract要約: GEMINIと呼ばれる相互情報の幾何を考慮した一般化を最大化しようとする識別クラスタリングモデルを導入する。
このアルゴリズムは特徴部分集合探索の負担を回避し、高次元データや大量のサンプルに容易に拡張できる。
本稿では,Sparse GEMINIの合成データセットおよび大規模データセットにおける性能について述べる。
- 参考スコア(独自算出の注目度): 10.084583574129608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection in clustering is a hard task which involves simultaneously
the discovery of relevant clusters as well as relevant variables with respect
to these clusters. While feature selection algorithms are often model-based
through optimised model selection or strong assumptions on $p(\pmb{x})$, we
introduce a discriminative clustering model trying to maximise a geometry-aware
generalisation of the mutual information called GEMINI with a simple $\ell_1$
penalty: the Sparse GEMINI. This algorithm avoids the burden of combinatorial
feature subset exploration and is easily scalable to high-dimensional data and
large amounts of samples while only designing a clustering model
$p_\theta(y|\pmb{x})$. We demonstrate the performances of Sparse GEMINI on
synthetic datasets as well as large-scale datasets. Our results show that
Sparse GEMINI is a competitive algorithm and has the ability to select relevant
subsets of variables with respect to the clustering without using relevance
criteria or prior hypotheses.
- Abstract(参考訳): クラスタリングにおける特徴の選択は、関連するクラスタの発見と関連する変数の発見を同時に行う難しいタスクである。
特徴選択アルゴリズムは、最適化されたモデル選択や$p(\pmb{x})$の強い仮定を通じてモデルベースとなることが多いが、単純な$\ell_1$ペナルティで、GEMINIと呼ばれる相互情報の幾何学的一般化を最大化しようとする識別的クラスタリングモデルを導入する。
このアルゴリズムは、組合せ機能サブセットの探索の負担を回避し、クラスタリングモデル$p_\theta(y|\pmb{x})$のみを設計しながら、高次元データや大量のサンプルに容易に拡張できる。
Sparse GEMINIの合成データセットおよび大規模データセットにおける性能を示す。
その結果、スパース・ジェミニは競合アルゴリズムであり、妥当性基準や事前仮説を用いずにクラスタリングに関して変数の関連部分集合を選択できることを示した。
関連論文リスト
- Superclustering by finding statistically significant separable groups of
optimal gaussian clusters [0.0]
本稿では,BIC基準の観点から,最適なデータセットをグループ化することで,データセットをクラスタリングするアルゴリズムを提案する。
このアルゴリズムの重要な利点は、既に訓練済みのクラスタに基づいて、新しいデータの正しいスーパークラスタを予測する能力である。
論文 参考訳(メタデータ) (2023-09-05T23:49:46Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Personalized Federated Learning via Convex Clustering [72.15857783681658]
本稿では,局所凸型ユーザコストを用いた個人化フェデレーション学習のためのアルゴリズム群を提案する。
提案するフレームワークは,異なるユーザのモデルの違いをペナル化する凸クラスタリングの一般化に基づいている。
論文 参考訳(メタデータ) (2022-02-01T19:25:31Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。
クエリを少なくすることで、問題の解決が容易になる。
論文 参考訳(メタデータ) (2021-06-04T02:32:26Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Mixed data Deep Gaussian Mixture Model: A clustering model for mixed
datasets [0.0]
我々はMixed Deep Gaussian Mixture Model (MDGMM)と呼ばれるモデルに基づくクラスタリング手法を提案する。
このアーキテクチャは柔軟性があり、連続データや非連続データにも適用できる。
我々のモデルはデータの連続的な低次元表現を提供し、混合データセットを視覚化するのに有用なツールである。
論文 参考訳(メタデータ) (2020-10-13T19:52:46Z) - EGMM: an Evidential Version of the Gaussian Mixture Model for Clustering [22.586481334904793]
本稿では,信念関数の理論的枠組みにおいて,EGMM(evidential GMM)と呼ばれるモデルに基づくクラスタリングアルゴリズムを提案する。
EGMMのパラメータは、特別に設計された期待最大化(EM)アルゴリズムによって推定される。
提案したEGMMは従来のGMMと同じくらい単純であるが,検討されたデータセットに対して,より情報に富む明確な分割を生成することができる。
論文 参考訳(メタデータ) (2020-10-03T11:59:07Z) - Efficient Algorithms for Generating Provably Near-Optimal Cluster
Descriptors for Explainability [36.11663695534294]
本稿では,クラスタに対する簡潔な表現を構築するための最近のアプローチを拡張して,クラスタをより解釈しやすくする問題について検討する。
我々は,その問題に対する性能保証を証明可能な近似アルゴリズムを開発した。
また、異なる脅威レベルを表すゲノム配列のクラスタを含むデータセットからのクラスタを説明するアプリケーションを示す。
論文 参考訳(メタデータ) (2020-02-06T19:49:54Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。