論文の概要: Sparse and geometry-aware generalisation of the mutual information for joint discriminative clustering and feature selection
- arxiv url: http://arxiv.org/abs/2302.03391v2
- Date: Thu, 18 Jul 2024 09:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-20 00:32:05.295355
- Title: Sparse and geometry-aware generalisation of the mutual information for joint discriminative clustering and feature selection
- Title(参考訳): 共同識別クラスタリングと特徴選択のための相互情報のスパースと幾何学的認識による一般化
- Authors: Louis Ohl, Pierre-Alexandre Mattei, Charles Bouveyron, Mickaël Leclercq, Arnaud Droit, Frédéric Precioso,
- Abstract要約: GEMINIと呼ばれる相互情報の幾何を考慮した一般化を最大化しようとする識別クラスタリングモデルを導入する。
このアルゴリズムは,特徴探索の負担を回避し,識別クラスタリングモデルのみを設計しながら,高次元データや大量のサンプルに対して容易にスケーラブルである。
以上の結果から,Sparse GEMINIは競合アルゴリズムであり,関連基準や事前仮説を使わずに,クラスタリングに関して変数の関連するサブセットを選択することができることがわかった。
- 参考スコア(独自算出の注目度): 19.066989850964756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature selection in clustering is a hard task which involves simultaneously the discovery of relevant clusters as well as relevant variables with respect to these clusters. While feature selection algorithms are often model-based through optimised model selection or strong assumptions on the data distribution, we introduce a discriminative clustering model trying to maximise a geometry-aware generalisation of the mutual information called GEMINI with a simple l1 penalty: the Sparse GEMINI. This algorithm avoids the burden of combinatorial feature subset exploration and is easily scalable to high-dimensional data and large amounts of samples while only designing a discriminative clustering model. We demonstrate the performances of Sparse GEMINI on synthetic datasets and large-scale datasets. Our results show that Sparse GEMINI is a competitive algorithm and has the ability to select relevant subsets of variables with respect to the clustering without using relevance criteria or prior hypotheses.
- Abstract(参考訳): クラスタリングにおける特徴の選択は、関連するクラスタと関連する変数を同時に発見する、という難しいタスクである。
特徴選択アルゴリズムは、最適化されたモデル選択やデータ分布の強い仮定を通じてモデルベースとなることが多いが、我々は、GEMINIと呼ばれる相互情報の幾何学的一般化を、単純なl1ペナルティであるSparse GEMINIで最大化しようとする差別的クラスタリングモデルを導入する。
このアルゴリズムは、組合せ特徴部分集合探索の負担を回避し、識別クラスタリングモデルのみを設計しながら、高次元データや大量のサンプルに対して容易にスケーラブルである。
合成データセットと大規模データセットにおけるSparse GEMINIの性能を示す。
この結果から,Sparse GEMINIは競合アルゴリズムであり,関連性基準や事前仮説を使わずに,クラスタリングに関して変数の関連する部分集合を選択することができることがわかった。
関連論文リスト
- Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - High-dimensional variable clustering based on maxima of a weakly dependent random process [1.1999555634662633]
本稿では,Asymptotic Independent Block (AI-block)モデルと呼ばれる,変数クラスタリングのための新しいモデルのクラスを提案する。
このモデルのクラスは特定可能であり、つまり、分割の間に部分的な順序を持つ極大要素が存在し、統計的推測が可能であることを意味する。
また,変数のクラスタを列挙するチューニングパラメータに依存するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-02T08:24:26Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - Clustering Optimisation Method for Highly Connected Biological Data [0.0]
接続クラスタリング評価のための単純な指標が,生物データの最適セグメンテーションにつながることを示す。
この作業の斬新さは、混雑したデータをクラスタリングするための単純な最適化方法の作成にある。
論文 参考訳(メタデータ) (2022-08-08T17:33:32Z) - Personalized Federated Learning via Convex Clustering [72.15857783681658]
本稿では,局所凸型ユーザコストを用いた個人化フェデレーション学習のためのアルゴリズム群を提案する。
提案するフレームワークは,異なるユーザのモデルの違いをペナル化する凸クラスタリングの一般化に基づいている。
論文 参考訳(メタデータ) (2022-02-01T19:25:31Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Clustering-Based Subset Selection in Evolutionary Multiobjective
Optimization [11.110675371854988]
サブセット選択は進化的多目的最適化(EMO)アルゴリズムにおいて重要な要素である。
クラスタリングに基づく手法は、EMOアルゴリズムによって得られた解集合からの部分集合選択の文脈では評価されていない。
論文 参考訳(メタデータ) (2021-08-19T02:56:41Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Mixed data Deep Gaussian Mixture Model: A clustering model for mixed
datasets [0.0]
我々はMixed Deep Gaussian Mixture Model (MDGMM)と呼ばれるモデルに基づくクラスタリング手法を提案する。
このアーキテクチャは柔軟性があり、連続データや非連続データにも適用できる。
我々のモデルはデータの連続的な低次元表現を提供し、混合データセットを視覚化するのに有用なツールである。
論文 参考訳(メタデータ) (2020-10-13T19:52:46Z) - EGMM: an Evidential Version of the Gaussian Mixture Model for Clustering [22.586481334904793]
本稿では,信念関数の理論的枠組みにおいて,EGMM(evidential GMM)と呼ばれるモデルに基づくクラスタリングアルゴリズムを提案する。
EGMMのパラメータは、特別に設計された期待最大化(EM)アルゴリズムによって推定される。
提案したEGMMは従来のGMMと同じくらい単純であるが,検討されたデータセットに対して,より情報に富む明確な分割を生成することができる。
論文 参考訳(メタデータ) (2020-10-03T11:59:07Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。