論文の概要: reval: a Python package to determine best clustering solutions with
stability-based relative clustering validation
- arxiv url: http://arxiv.org/abs/2009.01077v2
- Date: Mon, 30 Nov 2020 00:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 07:17:02.657223
- Title: reval: a Python package to determine best clustering solutions with
stability-based relative clustering validation
- Title(参考訳): reval: 安定性ベースの相対クラスタリング検証で最高のクラスタリングソリューションを決定するpythonパッケージ
- Authors: Isotta Landi, Veronica Mandelli, Michael V. Lombardo
- Abstract要約: revalは、安定性ベースの相対クラスタリングバリデーションメソッドを活用して、最適なクラスタリングソリューションを決定するPythonパッケージである。
この研究は、教師付き学習を通じて、目に見えないデータのサブセットを複製するものとして、最高のクラスタリングソリューションを選択する安定性ベースの方法の開発を目的としている。
- 参考スコア(独自算出の注目度): 1.8129328638036126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Determining the best partition for a dataset can be a challenging task
because of 1) the lack of a priori information within an unsupervised learning
framework; and 2) the absence of a unique clustering validation approach to
evaluate clustering solutions. Here we present reval: a Python package that
leverages stability-based relative clustering validation methods to determine
best clustering solutions as the ones that best generalize to unseen data.
Statistical software, both in R and Python, usually rely on internal validation
metrics, such as silhouette, to select the number of clusters that best fits
the data. Meanwhile, open-source software solutions that easily implement
relative clustering techniques are lacking. Internal validation methods exploit
characteristics of the data itself to produce a result, whereas relative
approaches attempt to leverage the unknown underlying distribution of data
points looking for generalizable and replicable results. The implementation of
relative validation methods can further the theory of clustering by enriching
the already available methods that can be used to investigate clustering
results in different situations and for different data distributions. This work
aims at contributing to this effort by developing a stability-based method that
selects the best clustering solution as the one that replicates, via supervised
learning, on unseen subsets of data. The package works with multiple clustering
and classification algorithms, hence allowing both the automatization of the
labeling process and the assessment of the stability of different clustering
mechanisms.
- Abstract(参考訳): データセットの最良のパーティションを決定するのは難しい作業です。
1) 教師なし学習枠組みにおける事前情報の欠如,及び
2)クラスタリングソリューションを評価するためのユニークなクラスタリング検証アプローチがない。
Revalは、安定性に基づいた相対クラスタリング検証手法を利用して、最適なクラスタリングソリューションを、目に見えないデータに最も一般化したものとして決定するPythonパッケージです。
統計ソフトウェアは、RとPythonの両方で、典型的には、データに最も適したクラスタ数を選択するために、シルエットのような内部検証メトリクスに依存する。
一方、相対的なクラスタリング技術を簡単に実装するオープンソースソフトウェアソリューションは不足している。
内部検証手法は、データ自体の特性を利用して結果を生成するが、相対的なアプローチは、一般化可能で複製可能な結果を求めるデータポイントの未知の分布を活用する。
相対的検証手法の実装は、異なる状況や異なるデータ分布におけるクラスタリング結果を調べるのに使用できる既に利用可能な手法を豊かにすることにより、クラスタリングの理論をさらに強化することができる。
この研究は、教師付き学習を通じて、見えないデータのサブセットに複製する最適なクラスタリングソリューションを選択できる、安定性に基づく方法を開発することで、この取り組みに貢献することを目的としています。
このパッケージは複数のクラスタリングと分類アルゴリズムで動作するため、ラベル付けプロセスの自動化と異なるクラスタリング機構の安定性の評価が可能である。
関連論文リスト
- Can an unsupervised clustering algorithm reproduce a categorization system? [1.0485739694839669]
ラベル付きデータセットにおいて、教師なしクラスタリングが真理クラスを再現できるかどうかを検討する。
成功は特徴選択と選択した距離測定に依存することを示す。
論文 参考訳(メタデータ) (2024-08-19T18:27:14Z) - Interpretable Clustering with the Distinguishability Criterion [0.4419843514606336]
本稿では,特定クラスタの分離可能性の定量化と推定クラスタ構成の検証を行うために,分散可能性基準と呼ばれるグローバルな基準を提案する。
本稿では、分散可能性基準と多くの一般的なクラスタリング手順を統合した損失関数に基づく計算フレームワークを提案する。
シミュレーション研究および実データアプリケーションに基づく包括的データ解析の結果とともに,これらの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-24T16:38:15Z) - A provable initialization and robust clustering method for general mixture models [6.806940901668607]
クラスタリングは、異種データの存在下での統計機械学習の基本的なツールである。
最新の結果は、ガウス以下の誤差を伴うセントロイドの周りにデータが分散されている場合に、最適なラベルの誤りを保証することに焦点が当てられている。
論文 参考訳(メタデータ) (2024-01-10T22:56:44Z) - Stable Cluster Discrimination for Deep Clustering [7.175082696240088]
ディープクラスタリングは、インスタンスの表現(つまり、表現学習)を最適化し、固有のデータ分散を探索することができる。
結合された目的は、すべてのインスタンスが一様機能に崩壊する、自明な解決策を意味する。
本研究では,1段階クラスタリングにおいて,教師あり学習における一般的な識別タスクが不安定であることを示す。
新規な安定クラスタ識別(SeCu)タスクを提案し、それに応じて新しいハードネス対応クラスタリング基準を得ることができる。
論文 参考訳(メタデータ) (2023-11-24T06:43:26Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Fast and Interpretable Consensus Clustering via Minipatch Learning [0.0]
IMPACC: Interpretable MiniPatch Adaptive Consensus Clustering を開発した。
我々は、信頼性と計算コストの両面で改善された観測のための適応型サンプリング手法を開発した。
その結果,より正確で解釈可能なクラスタソリューションが得られた。
論文 参考訳(メタデータ) (2021-10-05T22:39:28Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。