Fugu-MT 論文翻訳(概要): Sparse GEMINI for Joint Discriminative Clustering and Feature Selection

論文の概要: Sparse GEMINI for Joint Discriminative Clustering and Feature Selection

arxiv url: http://arxiv.org/abs/2302.03391v1
Date: Tue, 7 Feb 2023 10:52:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-08 16:43:46.413077
Title: Sparse GEMINI for Joint Discriminative Clustering and Feature Selection
Title（参考訳）: 共同識別クラスタリングと特徴選択のためのスパースジェミニ
Authors: Louis Ohl, Pierre-Alexandre Mattei, Charles Bouveyron, Micka\"el Leclercq, Arnaud Droit and Fr\'ed\'eric Precioso
Abstract要約: GEMINIと呼ばれる相互情報の幾何を考慮した一般化を最大化しようとする識別クラスタリングモデルを導入する。このアルゴリズムは特徴部分集合探索の負担を回避し、高次元データや大量のサンプルに容易に拡張できる。本稿では,Sparse GEMINIの合成データセットおよび大規模データセットにおける性能について述べる。
参考スコア（独自算出の注目度）: 10.084583574129608
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Feature selection in clustering is a hard task which involves simultaneously the discovery of relevant clusters as well as relevant variables with respect to these clusters. While feature selection algorithms are often model-based through optimised model selection or strong assumptions on $p(\pmb{x})$, we introduce a discriminative clustering model trying to maximise a geometry-aware generalisation of the mutual information called GEMINI with a simple $\ell_1$ penalty: the Sparse GEMINI. This algorithm avoids the burden of combinatorial feature subset exploration and is easily scalable to high-dimensional data and large amounts of samples while only designing a clustering model $p_\theta(y|\pmb{x})$. We demonstrate the performances of Sparse GEMINI on synthetic datasets as well as large-scale datasets. Our results show that Sparse GEMINI is a competitive algorithm and has the ability to select relevant subsets of variables with respect to the clustering without using relevance criteria or prior hypotheses.
Abstract（参考訳）: クラスタリングにおける特徴の選択は、関連するクラスタの発見と関連する変数の発見を同時に行う難しいタスクである。特徴選択アルゴリズムは、最適化されたモデル選択や$p(\pmb{x})$の強い仮定を通じてモデルベースとなることが多いが、単純な$\ell_1$ペナルティで、GEMINIと呼ばれる相互情報の幾何学的一般化を最大化しようとする識別的クラスタリングモデルを導入する。このアルゴリズムは、組合せ機能サブセットの探索の負担を回避し、クラスタリングモデル$p_\theta(y|\pmb{x})$のみを設計しながら、高次元データや大量のサンプルに容易に拡張できる。 Sparse GEMINIの合成データセットおよび大規模データセットにおける性能を示す。その結果、スパース・ジェミニは競合アルゴリズムであり、妥当性基準や事前仮説を用いずにクラスタリングに関して変数の関連部分集合を選択できることを示した。

関連論文リスト

Sparse clustering via the Deterministic Information Bottleneck algorithm [0.0]
クラスタ構造が機能領域のサブセットに限定されている場合、従来のクラスタリング技術は前例のない課題に直面します。本稿では,スパースデータに関連する問題を克服し,特徴量の重み付けとクラスタリングを可能にする情報理論フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-28T14:05:44Z)
ESMC: MLLM-Based Embedding Selection for Explainable Multiple Clustering [79.69917150582633]
MLLM(Multi-modal large language model)は、ユーザ主導のクラスタリングを実現するために利用することができる。本手法はまず,MLLMのテキストトークンの隠蔽状態が対応する特徴と強く関連していることを明らかにする。また、擬似ラベル学習を付加した軽量クラスタリングヘッドを採用し、クラスタリング精度を大幅に向上させた。
論文参考訳（メタデータ） (2025-11-30T04:36:51Z)
Parameter-Free Clustering via Self-Supervised Consensus Maximization (Extended Version) [50.41628860536753]
本稿では,SCMax と呼ばれる自己教師型コンセンサス最大化による,新しい完全パラメータフリークラスタリングフレームワークを提案する。本フレームワークは,階層的なクラスタリングとクラスタ評価を単一の統合プロセスで行う。
論文参考訳（メタデータ） (2025-11-12T11:17:17Z)
An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文参考訳（メタデータ） (2025-07-18T10:07:42Z)
GOLFS: Feature Selection via Combining Both Global and Local Information for High Dimensional Clustering [10.740524877905685]
GlObalとローカル情報を組み合わせた特徴選択法(GOLFS)を提案する。 GOLFSは、多様体学習による局所幾何学構造と、サンプルの大域的相関構造を組み合わせて、識別的特徴を選択する。この組み合わせにより、より包括的な情報を活用することにより、機能選択とクラスタリングの両方の精度が向上する。
論文参考訳（メタデータ） (2025-07-15T03:39:07Z)
Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文参考訳（メタデータ） (2023-06-18T08:46:06Z)
High-dimensional variable clustering based on maxima of a weakly dependent random process [1.1999555634662633]
本稿では,Asymptotic Independent Block (AI-block)モデルと呼ばれる,変数クラスタリングのための新しいモデルのクラスを提案する。このモデルのクラスは特定可能であり、つまり、分割の間に部分的な順序を持つ極大要素が存在し、統計的推測が可能であることを意味する。また,変数のクラスタを列挙するチューニングパラメータに依存するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-02T08:24:26Z)
Unified Multi-View Orthonormal Non-Negative Graph Based Clustering Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文参考訳（メタデータ） (2022-11-03T08:18:27Z)
Adaptively-weighted Integral Space for Fast Multiview Clustering [54.177846260063966]
線形複雑度に近い高速マルチビュークラスタリングのための適応重み付き積分空間(AIMC)を提案する。特に、ビュー生成モデルは、潜在積分空間からのビュー観測を再構成するために設計されている。いくつかの実世界のデータセットで実施された実験は、提案したAIMC法の優位性を確認した。
論文参考訳（メタデータ） (2022-08-25T05:47:39Z)
Clustering Optimisation Method for Highly Connected Biological Data [0.0]
接続クラスタリング評価のための単純な指標が,生物データの最適セグメンテーションにつながることを示す。この作業の斬新さは、混雑したデータをクラスタリングするための単純な最適化方法の作成にある。
論文参考訳（メタデータ） (2022-08-08T17:33:32Z)
Personalized Federated Learning via Convex Clustering [72.15857783681658]
本稿では,局所凸型ユーザコストを用いた個人化フェデレーション学習のためのアルゴリズム群を提案する。提案するフレームワークは,異なるユーザのモデルの違いをペナル化する凸クラスタリングの一般化に基づいている。
論文参考訳（メタデータ） (2022-02-01T19:25:31Z)
Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-29T08:13:56Z)
Clustering-Based Subset Selection in Evolutionary Multiobjective Optimization [11.110675371854988]
サブセット選択は進化的多目的最適化(EMO)アルゴリズムにおいて重要な要素である。クラスタリングに基づく手法は、EMOアルゴリズムによって得られた解集合からの部分集合選択の文脈では評価されていない。
論文参考訳（メタデータ） (2021-08-19T02:56:41Z)
Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文参考訳（メタデータ） (2020-10-22T15:58:35Z)
Mixed data Deep Gaussian Mixture Model: A clustering model for mixed datasets [0.0]
我々はMixed Deep Gaussian Mixture Model (MDGMM)と呼ばれるモデルに基づくクラスタリング手法を提案する。このアーキテクチャは柔軟性があり、連続データや非連続データにも適用できる。我々のモデルはデータの連続的な低次元表現を提供し、混合データセットを視覚化するのに有用なツールである。
論文参考訳（メタデータ） (2020-10-13T19:52:46Z)
EGMM: an Evidential Version of the Gaussian Mixture Model for Clustering [22.586481334904793]
本稿では,信念関数の理論的枠組みにおいて,EGMM(evidential GMM)と呼ばれるモデルに基づくクラスタリングアルゴリズムを提案する。 EGMMのパラメータは、特別に設計された期待最大化(EM)アルゴリズムによって推定される。提案したEGMMは従来のGMMと同じくらい単純であるが,検討されたデータセットに対して,より情報に富む明確な分割を生成することができる。
論文参考訳（メタデータ） (2020-10-03T11:59:07Z)
Clustering Binary Data by Application of Combinatorial Optimization Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文参考訳（メタデータ） (2020-01-06T23:33:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。