論文の概要: Clustering with minimum spanning trees: How good can it be?
- arxiv url: http://arxiv.org/abs/2303.05679v2
- Date: Sun, 29 Oct 2023 02:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 23:05:31.378016
- Title: Clustering with minimum spanning trees: How good can it be?
- Title(参考訳): 最小分散木によるクラスタリング: どれくらいよいのか?
- Authors: Marek Gagolewski, Anna Cena, Maciej Bartoszuk, {\L}ukasz Brzozowski
- Abstract要約: 最小スパンニングツリー(MST)は、パターン認識活動におけるデータセットの便利な表現を提供する。
本稿では,低次元空間における分割データクラスタリングタスクにおいて,それらが意味を持つ範囲を定量化する。
- 参考スコア(独自算出の注目度): 2.184775414778289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Minimum spanning trees (MSTs) provide a convenient representation of datasets
in numerous pattern recognition activities. Moreover, they are relatively fast
to compute. In this paper, we quantify the extent to which they can be
meaningful in partitional data clustering tasks in low-dimensional spaces. By
identifying the upper bounds for the agreement between the best (oracle)
algorithm and the expert labels from a large battery of benchmark data, we
discover that MST methods are overall very competitive. Next, instead of
proposing yet another algorithm that performs well on a limited set of
examples, we review, study, extend, and generalise existing, state-of-the-art
MST-based partitioning schemes. This leads to a few new and noteworthy
approaches. Overall, Genie and the information-theoretic methods often
outperform the non-MST algorithms such as k-means, Gaussian mixtures, spectral
clustering, Birch, density-based, and classical hierarchical agglomerative
procedures. Nevertheless, we identify that there is still some room for
improvement, and thus the development of novel algorithms is encouraged.
- Abstract(参考訳): 最小スパンディングツリー(msts)は、多数のパターン認識アクティビティにおけるデータセットの便利な表現を提供する。
さらに、計算は比較的高速である。
本稿では,低次元空間における分割的データクラスタリングタスクにおいて,それらが有意である程度を定量化する。
最高の(oracle)アルゴリズムと専門家ラベルの間の合意の上限を、大量のベンチマークデータから特定することで、mstメソッドが全体的に非常に競争力があることが分かりました。
次に、限られた例でうまく機能する別のアルゴリズムを提案する代わりに、既存の最先端のMSTベースの分割スキームをレビュー、研究、拡張、一般化する。
これはいくつかの新しく注目すべきアプローチにつながります。
総じて、ゲニーと情報理論の手法は、k-平均、ガウス混合、スペクトルクラスタリング、バーチ、密度ベース、古典的な階層的凝集手順のような非mstアルゴリズムを上回ることが多い。
しかし,まだ改善の余地が残っており,新たなアルゴリズムの開発が奨励されている。
関連論文リスト
- A Modular Spatial Clustering Algorithm with Noise Specification [0.0]
細菌ファームアルゴリズムは、閉じた実験農場の細菌の成長にインスパイアされている。
他のクラスタリングアルゴリズムとは対照的に、我々のアルゴリズムはクラスタリング中に除外されるノイズの量を規定する機能も備えている。
論文 参考訳(メタデータ) (2023-09-18T18:05:06Z) - Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together! [100.19080749267316]
Sparsity May Cry"ベンチマーク(SMC-Bench)は、慎重に計算された4つのタスクと10のデータセットのコレクションである。
SMC-Benchは、よりスケーラブルで一般化可能なスパースアルゴリズムの開発を奨励するように設計されている。
論文 参考訳(メタデータ) (2023-03-03T18:47:21Z) - GBMST: An Efficient Minimum Spanning Tree Clustering Based on
Granular-Ball Computing [78.92205914422925]
多粒度グラニュラバルと最小スパンニングツリー(MST)を組み合わせたクラスタリングアルゴリズムを提案する。
粒度が粗い粒状ボールを構築し,さらに粒状ボールとMSTを用いて「大規模優先度」に基づくクラスタリング手法を実装した。
いくつかのデータセットの実験結果は、アルゴリズムの威力を示している。
論文 参考訳(メタデータ) (2023-03-02T09:04:35Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Contrast Pattern Mining: A Survey [54.06874773607785]
この分野の研究者が短期間で現場の一般的な状況を理解することは困難である。
まず、識別能力を評価するための基本的な概念、タイプ、採掘戦略、メトリクスを含む、CPMの深い理解を示す。
我々は,CPM法の特徴を,境界ベースアルゴリズム,木ベースアルゴリズム,進化ファジィシステムベースアルゴリズム,決定木ベースアルゴリズム,その他のアルゴリズムに分類する。
論文 参考訳(メタデータ) (2022-09-27T17:11:12Z) - An Exact Algorithm for Semi-supervised Minimum Sum-of-Squares Clustering [0.5801044612920815]
半教師付きMSSCのための分岐結合アルゴリズムを提案する。
背景知識はペアワイズ・マスタリンクと結びつかない制約として組み込まれている。
提案したグローバル最適化アルゴリズムは,実世界のインスタンスを最大800個のデータポイントまで効率的に解決する。
論文 参考訳(メタデータ) (2021-11-30T17:08:53Z) - Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。
A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。
実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2021-04-14T18:15:27Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Data Structures & Algorithms for Exact Inference in Hierarchical
Clustering [41.24805506595378]
本稿では,新しいトレリスデータ構造に基づく階層クラスタリングにおける表現型推論のための動的プログラミングアルゴリズムを提案する。
我々のアルゴリズムは時間と空間に比例してN$要素のパワーセットをスケールし、これは(2N-3)! 可能な階層のそれぞれを明示的に考慮するよりも指数関数的に効率的である。
論文 参考訳(メタデータ) (2020-02-26T17:43:53Z) - Simple and Scalable Sparse k-means Clustering via Feature Ranking [14.839931533868176]
直感的で実装が簡単で,最先端のアルゴリズムと競合する,スパースk平均クラスタリングのための新しいフレームワークを提案する。
本手法は,属性のサブセットのクラスタリングや部分的に観測されたデータ設定など,タスク固有のアルゴリズムに容易に一般化できる。
論文 参考訳(メタデータ) (2020-02-20T02:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。