論文の概要: Clustering with minimum spanning trees: How good can it be?
- arxiv url: http://arxiv.org/abs/2303.05679v1
- Date: Fri, 10 Mar 2023 03:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 16:16:26.666924
- Title: Clustering with minimum spanning trees: How good can it be?
- Title(参考訳): 最小分散木によるクラスタリング: どれくらいよいのか?
- Authors: Marek Gagolewski, Anna Cena, Maciej Bartoszuk, {\L}ukasz Brzozowski
- Abstract要約: ベンチマークデータの大容量バッテリから、ベスト(オークル)アルゴリズムとエキスパートラベルとの一致の上限を同定する。
Genie法と情報理論のアプローチは、MST以外のアルゴリズムよりも優れていることが判明した。
- 参考スコア(独自算出の注目度): 3.3358789614396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Minimum spanning trees (MSTs) provide a convenient representation of datasets
in numerous pattern recognition activities. Moreover, they are relatively fast
to compute. In this paper, we quantify the extent to which they can be
meaningful in data clustering tasks. By identifying the upper bounds for the
agreement between the best (oracle) algorithm and the expert labels from a
large battery of benchmark data, we discover that MST methods can overall be
very competitive. Next, instead of proposing yet another algorithm that
performs well on a limited set of examples, we review, study, extend, and
generalise existing, the state-of-the-art MST-based partitioning schemes, which
leads to a few new and interesting approaches. It turns out that the Genie
method and the information-theoretic approaches often outperform the non-MST
algorithms such as k-means, Gaussian mixtures, spectral clustering, BIRCH, and
classical hierarchical agglomerative procedures.
- Abstract(参考訳): 最小スパンディングツリー(msts)は、多数のパターン認識アクティビティにおけるデータセットの便利な表現を提供する。
さらに、計算は比較的高速である。
本稿では,データクラスタリングタスクにおいて有意な意味を持つ程度を定量化する。
最高の(oracle)アルゴリズムと専門家ラベルの間の合意の上限を、大量のベンチマークデータから特定することで、mstメソッドが全体として非常に競争力があることが分かりました。
次に、限られた例でうまく機能する別のアルゴリズムを提案する代わりに、最先端のMSTベースのパーティショニングスキームである既存のものをレビュー、研究、拡張、一般化し、いくつかの新しい興味深いアプローチをもたらす。
ジェニー法と情報理論のアプローチは、k平均、ガウス混合、スペクトルクラスタリング、BIRCH、古典的階層的集計手順などの非MSTアルゴリズムよりも優れていることが判明した。
関連論文リスト
- A Modular Spatial Clustering Algorithm with Noise Specification [0.0]
細菌ファームアルゴリズムは、閉じた実験農場の細菌の成長にインスパイアされている。
他のクラスタリングアルゴリズムとは対照的に、我々のアルゴリズムはクラスタリング中に除外されるノイズの量を規定する機能も備えている。
論文 参考訳(メタデータ) (2023-09-18T18:05:06Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together! [100.19080749267316]
Sparsity May Cry"ベンチマーク(SMC-Bench)は、慎重に計算された4つのタスクと10のデータセットのコレクションである。
SMC-Benchは、よりスケーラブルで一般化可能なスパースアルゴリズムの開発を奨励するように設計されている。
論文 参考訳(メタデータ) (2023-03-03T18:47:21Z) - GBMST: An Efficient Minimum Spanning Tree Clustering Based on
Granular-Ball Computing [78.92205914422925]
多粒度グラニュラバルと最小スパンニングツリー(MST)を組み合わせたクラスタリングアルゴリズムを提案する。
粒度が粗い粒状ボールを構築し,さらに粒状ボールとMSTを用いて「大規模優先度」に基づくクラスタリング手法を実装した。
いくつかのデータセットの実験結果は、アルゴリズムの威力を示している。
論文 参考訳(メタデータ) (2023-03-02T09:04:35Z) - Regularization and Optimization in Model-Based Clustering [4.096453902709292]
k-平均アルゴリズムの変種は、本質的に同じ球面ガウスの混合と、そのような分布から大きく逸脱するデータに適合する。
一般のGMMに対してより効率的な最適化アルゴリズムを開発し、これらのアルゴリズムと正規化戦略を組み合わせ、過度な適合を避ける。
これらの結果から, GMM と k-means 法の間の現状に新たな光を当て, 一般 GMM をデータ探索に利用することが示唆された。
論文 参考訳(メタデータ) (2023-02-05T18:22:29Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - An Exact Algorithm for Semi-supervised Minimum Sum-of-Squares Clustering [0.5801044612920815]
半教師付きMSSCのための分岐結合アルゴリズムを提案する。
背景知識はペアワイズ・マスタリンクと結びつかない制約として組み込まれている。
提案したグローバル最適化アルゴリズムは,実世界のインスタンスを最大800個のデータポイントまで効率的に解決する。
論文 参考訳(メタデータ) (2021-11-30T17:08:53Z) - Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。
A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。
実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2021-04-14T18:15:27Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - An Efficient Smoothing Proximal Gradient Algorithm for Convex Clustering [2.5182813818441945]
最近導入された凸クラスタリング手法は、凸最適化問題としてクラスタリングを定式化している。
最先端の凸クラスタリングアルゴリズムは大規模な計算とメモリ空間を必要とする。
本稿では,凸クラスタリングのための非常に効率的なスムーズな勾配法 (Sproga) を提案する。
論文 参考訳(メタデータ) (2020-06-22T20:02:59Z) - Simple and Scalable Sparse k-means Clustering via Feature Ranking [14.839931533868176]
直感的で実装が簡単で,最先端のアルゴリズムと競合する,スパースk平均クラスタリングのための新しいフレームワークを提案する。
本手法は,属性のサブセットのクラスタリングや部分的に観測されたデータ設定など,タスク固有のアルゴリズムに容易に一般化できる。
論文 参考訳(メタデータ) (2020-02-20T02:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。