論文の概要: A Framework for Benchmarking Clustering Algorithms
- arxiv url: http://arxiv.org/abs/2209.09493v1
- Date: Tue, 20 Sep 2022 06:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 17:52:13.763065
- Title: A Framework for Benchmarking Clustering Algorithms
- Title(参考訳): クラスタリングアルゴリズムのベンチマークのためのフレームワーク
- Authors: Marek Gagolewski
- Abstract要約: クラスタリングアルゴリズムの評価は、様々なベンチマーク問題でそれらを実行することで行うことができる。
多くの研究論文や大学院論文では、少数のデータセットしか考慮していない。
我々はクラスタリングアルゴリズムをテストする一貫した方法論を導入することを目的としたフレームワークを開発した。
- 参考スコア(独自算出の注目度): 4.429175633425273
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The evaluation of clustering algorithms can be performed by running them on a
variety of benchmark problems, and comparing their outputs to the reference,
ground-truth groupings provided by experts. Unfortunately, many research papers
and graduate theses consider only a small number of datasets. Also, rarely the
fact that there can be many equally valid ways to cluster a given problem set
is taken into account. In order to overcome these limitations, we have
developed a framework whose aim is to introduce a consistent methodology for
testing clustering algorithms. Furthermore, we have aggregated, polished, and
standardised many clustering benchmark batteries referred to across the machine
learning and data mining literature, and included new datasets of different
dimensionalities, sizes, and cluster types. An interactive datasets explorer,
the documentation of the Python API, a description of the ways to interact with
the framework from other programming languages such as R or MATLAB, and other
details are all provided at https://clustering-benchmarks.gagolewski.com.
- Abstract(参考訳): クラスタリングアルゴリズムの評価は、様々なベンチマーク問題上でそれらを実行し、それらの出力を専門家が提供した基準的基幹グループと比較することで行うことができる。
残念なことに、多くの研究論文や研究論文は少数のデータセットしか考慮していない。
また、与えられた問題集合をクラスタリングする等しく有効な方法が多数存在するという事実もまれである。
これらの制限を克服するために,クラスタリングアルゴリズムをテストする一貫した方法論を導入することを目的としたフレームワークを開発した。
さらに,機械学習やデータマイニングの分野で参照される多数のクラスタリングベンチマークバッテリを集約,洗練,標準化し,さまざまな次元,サイズ,クラスタタイプのデータセットを新たに導入した。
インタラクティブなデータセットエクスプローラ、Python APIのドキュメント、RやMATLABといった他のプログラミング言語からのフレームワークとのインタラクション方法の説明、その他の詳細はすべてhttps://clustering-benchmarks.gagolewski.comで提供されている。
関連論文リスト
- The ParClusterers Benchmark Suite (PCBS): A Fine-Grained Analysis of Scalable Graph Clustering [15.047567897051376]
ParClusterers Benchmark Suite (PCBS)は、高度にスケーラブルな並列グラフクラスタリングアルゴリズムとベンチマークツールのコレクションである。
PCBSは、スケーラブルなグラフクラスタリングアルゴリズムのアクティブな研究領域の品質とパフォーマンスのトレードオフを評価し、判断する標準化された方法を提供する。
論文 参考訳(メタデータ) (2024-11-15T15:47:32Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - High-Level Synthetic Data Generation with Data Set Archetypes [4.13592995550836]
クラスタ分析は、異なるアルゴリズムの評価と比較に有効なベンチマークに依存している。
データセットのアーキタイプに基づく合成データ生成を提案する。
評価シナリオの言葉による記述からベンチマークを純粋に設定することが可能である。
論文 参考訳(メタデータ) (2023-03-24T23:45:27Z) - Generating Multidimensional Clusters With Support Lines [0.0]
合成データ生成のためのモジュラープロシージャであるClugenを提案する。
Clukenはオープンソースで、包括的なユニットテストとドキュメント化が可能である。
クラスタリングアルゴリズムの評価にはClugenが適していることを示す。
論文 参考訳(メタデータ) (2023-01-24T22:08:24Z) - Analysis of Sparse Subspace Clustering: Experiments and Random
Projection [0.0]
クラスタリングは、顔クラスタリング、植物分類、イメージセグメンテーション、文書分類など、多くの領域で使われているテクニックである。
Sparse Subspace Clustering(スパース・サブスペース・クラスタリング)と呼ばれる強力なクラスタリングアルゴリズムを解析する。
本稿では,本手法を用いて実験を行い,スパース部分空間クラスタリングを行うために必要な計算時間を削減できる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T23:55:53Z) - Clustering Plotted Data by Image Segmentation [12.443102864446223]
クラスタリングアルゴリズムは、ラベルなしデータのパターンを検出する主要な分析手法の1つである。
本稿では,人間のクラスタリングデータに着想を得た,2次元空間におけるクラスタリングポイントの全く異なる方法を提案する。
私たちのアプローチであるVisual Clusteringは、従来のクラスタリングアルゴリズムよりもいくつかのアドバンテージを持っています。
論文 参考訳(メタデータ) (2021-10-06T06:19:30Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。