論文の概要: Clustering with minimum spanning trees: How good can it be?
- arxiv url: http://arxiv.org/abs/2303.05679v1
- Date: Fri, 10 Mar 2023 03:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 16:16:26.666924
- Title: Clustering with minimum spanning trees: How good can it be?
- Title(参考訳): 最小分散木によるクラスタリング: どれくらいよいのか?
- Authors: Marek Gagolewski, Anna Cena, Maciej Bartoszuk, {\L}ukasz Brzozowski
- Abstract要約: ベンチマークデータの大容量バッテリから、ベスト(オークル)アルゴリズムとエキスパートラベルとの一致の上限を同定する。
Genie法と情報理論のアプローチは、MST以外のアルゴリズムよりも優れていることが判明した。
- 参考スコア(独自算出の注目度): 3.3358789614396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Minimum spanning trees (MSTs) provide a convenient representation of datasets
in numerous pattern recognition activities. Moreover, they are relatively fast
to compute. In this paper, we quantify the extent to which they can be
meaningful in data clustering tasks. By identifying the upper bounds for the
agreement between the best (oracle) algorithm and the expert labels from a
large battery of benchmark data, we discover that MST methods can overall be
very competitive. Next, instead of proposing yet another algorithm that
performs well on a limited set of examples, we review, study, extend, and
generalise existing, the state-of-the-art MST-based partitioning schemes, which
leads to a few new and interesting approaches. It turns out that the Genie
method and the information-theoretic approaches often outperform the non-MST
algorithms such as k-means, Gaussian mixtures, spectral clustering, BIRCH, and
classical hierarchical agglomerative procedures.
- Abstract(参考訳): 最小スパンディングツリー(msts)は、多数のパターン認識アクティビティにおけるデータセットの便利な表現を提供する。
さらに、計算は比較的高速である。
本稿では,データクラスタリングタスクにおいて有意な意味を持つ程度を定量化する。
最高の(oracle)アルゴリズムと専門家ラベルの間の合意の上限を、大量のベンチマークデータから特定することで、mstメソッドが全体として非常に競争力があることが分かりました。
次に、限られた例でうまく機能する別のアルゴリズムを提案する代わりに、最先端のMSTベースのパーティショニングスキームである既存のものをレビュー、研究、拡張、一般化し、いくつかの新しい興味深いアプローチをもたらす。
ジェニー法と情報理論のアプローチは、k平均、ガウス混合、スペクトルクラスタリング、BIRCH、古典的階層的集計手順などの非MSTアルゴリズムよりも優れていることが判明した。
関連論文リスト
- A Modular Spatial Clustering Algorithm with Noise Specification [0.0]
細菌ファームアルゴリズムは、閉じた実験農場の細菌の成長にインスパイアされている。
他のクラスタリングアルゴリズムとは対照的に、我々のアルゴリズムはクラスタリング中に除外されるノイズの量を規定する機能も備えている。
論文 参考訳(メタデータ) (2023-09-18T18:05:06Z) - Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together! [100.19080749267316]
Sparsity May Cry"ベンチマーク(SMC-Bench)は、慎重に計算された4つのタスクと10のデータセットのコレクションである。
SMC-Benchは、よりスケーラブルで一般化可能なスパースアルゴリズムの開発を奨励するように設計されている。
論文 参考訳(メタデータ) (2023-03-03T18:47:21Z) - GBMST: An Efficient Minimum Spanning Tree Clustering Based on
Granular-Ball Computing [78.92205914422925]
多粒度グラニュラバルと最小スパンニングツリー(MST)を組み合わせたクラスタリングアルゴリズムを提案する。
粒度が粗い粒状ボールを構築し,さらに粒状ボールとMSTを用いて「大規模優先度」に基づくクラスタリング手法を実装した。
いくつかのデータセットの実験結果は、アルゴリズムの威力を示している。
論文 参考訳(メタデータ) (2023-03-02T09:04:35Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Contrast Pattern Mining: A Survey [54.06874773607785]
この分野の研究者が短期間で現場の一般的な状況を理解することは困難である。
まず、識別能力を評価するための基本的な概念、タイプ、採掘戦略、メトリクスを含む、CPMの深い理解を示す。
我々は,CPM法の特徴を,境界ベースアルゴリズム,木ベースアルゴリズム,進化ファジィシステムベースアルゴリズム,決定木ベースアルゴリズム,その他のアルゴリズムに分類する。
論文 参考訳(メタデータ) (2022-09-27T17:11:12Z) - An Exact Algorithm for Semi-supervised Minimum Sum-of-Squares Clustering [0.5801044612920815]
半教師付きMSSCのための分岐結合アルゴリズムを提案する。
背景知識はペアワイズ・マスタリンクと結びつかない制約として組み込まれている。
提案したグローバル最適化アルゴリズムは,実世界のインスタンスを最大800個のデータポイントまで効率的に解決する。
論文 参考訳(メタデータ) (2021-11-30T17:08:53Z) - Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。
A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。
実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2021-04-14T18:15:27Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Data Structures & Algorithms for Exact Inference in Hierarchical
Clustering [41.24805506595378]
本稿では,新しいトレリスデータ構造に基づく階層クラスタリングにおける表現型推論のための動的プログラミングアルゴリズムを提案する。
我々のアルゴリズムは時間と空間に比例してN$要素のパワーセットをスケールし、これは(2N-3)! 可能な階層のそれぞれを明示的に考慮するよりも指数関数的に効率的である。
論文 参考訳(メタデータ) (2020-02-26T17:43:53Z) - Simple and Scalable Sparse k-means Clustering via Feature Ranking [14.839931533868176]
直感的で実装が簡単で,最先端のアルゴリズムと競合する,スパースk平均クラスタリングのための新しいフレームワークを提案する。
本手法は,属性のサブセットのクラスタリングや部分的に観測されたデータ設定など,タスク固有のアルゴリズムに容易に一般化できる。
論文 参考訳(メタデータ) (2020-02-20T02:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。