論文の概要: HAWKS: Evolving Challenging Benchmark Sets for Cluster Analysis
- arxiv url: http://arxiv.org/abs/2102.06940v1
- Date: Sat, 13 Feb 2021 15:01:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:23:20.900074
- Title: HAWKS: Evolving Challenging Benchmark Sets for Cluster Analysis
- Title(参考訳): HAWKS:クラスタ分析のためのChallenging Benchmark Setsの進化
- Authors: Cameron Shand, Richard Allmendinger, Julia Handl, Andrew Webb, and
John Keane
- Abstract要約: クラスタリングアルゴリズムの包括的なベンチマークは難しい。
厳格なベンチマークのベストプラクティスに関する合意はありません。
このようなベンチマークのフレキシブルな生成を支援するために,進化的アルゴリズムが果たす重要な役割を実証する。
- 参考スコア(独自算出の注目度): 2.5329716878122404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehensive benchmarking of clustering algorithms is rendered difficult by
two key factors: (i)~the elusiveness of a unique mathematical definition of
this unsupervised learning approach and (ii)~dependencies between the
generating models or clustering criteria adopted by some clustering algorithms
and indices for internal cluster validation. Consequently, there is no
consensus regarding the best practice for rigorous benchmarking, and whether
this is possible at all outside the context of a given application. Here, we
argue that synthetic datasets must continue to play an important role in the
evaluation of clustering algorithms, but that this necessitates constructing
benchmarks that appropriately cover the diverse set of properties that impact
clustering algorithm performance. Through our framework, HAWKS, we demonstrate
the important role evolutionary algorithms play to support flexible generation
of such benchmarks, allowing simple modification and extension. We illustrate
two possible uses of our framework: (i)~the evolution of benchmark data
consistent with a set of hand-derived properties and (ii)~the generation of
datasets that tease out performance differences between a given pair of
algorithms. Our work has implications for the design of clustering benchmarks
that sufficiently challenge a broad range of algorithms, and for furthering
insight into the strengths and weaknesses of specific approaches.
- Abstract(参考訳): クラスタリングアルゴリズムの総合的なベンチマークは、 (i) - この教師なし学習アプローチのユニークな数学的定義の解明と (ii) - クラスタリングアルゴリズムで採用される生成モデルやクラスタリング基準と内部クラスタバリデーションの指標との依存性の2つの主要な要因によって難しい。
したがって、厳格なベンチマークのベストプラクティスと、それが特定のアプリケーションのコンテキスト外でまったく可能かどうかに関する合意はありません。
ここでは、合成データセットはクラスタリングアルゴリズムの評価において重要な役割を担わなければならないが、クラスタリングアルゴリズムのパフォーマンスに影響を及ぼす多様な特性を適切にカバーするベンチマークを構築する必要があると論じる。
フレームワークであるHAWKSを通じて、そのようなベンチマークの柔軟な生成をサポートするために進化的アルゴリズムが果たす重要な役割を実証し、簡単な修正と拡張を可能にします。
i)手がかりのプロパティの集合と一致するベンチマークデータの進化、(ii) 与えられたアルゴリズムのペア間のパフォーマンスの相違を予見するデータセットの生成。
我々の研究は、広範囲のアルゴリズムに十分に挑戦するクラスタリングベンチマークの設計と、特定のアプローチの強みと弱みに関する洞察を深めることに意味があります。
関連論文リスト
- Demystifying Online Clustering of Bandits: Enhanced Exploration Under Stochastic and Smoothed Adversarial Contexts [27.62165569135504]
バンディットのオンラインクラスタリングとして知られる一連の研究は、類似のユーザをクラスタにグループ化することで、コンテキストMABを拡張している。
既存のアルゴリズムは、上位信頼境界(UCB)戦略に依存しており、未知のユーザクラスタを正確に識別するために十分な統計情報を集めるのに苦労している。
クラスタ識別を高速化する探索機構を改良した,UniCLUB と PhaseUniCLUB の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-01T16:38:29Z) - Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。
既存のSHGLメソッドには2つの大きな制限がある。
ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-01T09:33:20Z) - AdaptiveMDL-GenClust: A Robust Clustering Framework Integrating Normalized Mutual Information and Evolutionary Algorithms [0.0]
我々は,最小記述長(MDL)原理と遺伝的最適化アルゴリズムを組み合わせたロバストクラスタリングフレームワークを提案する。
このフレームワークは、初期クラスタリングソリューションを生成するためのアンサンブルクラスタリングアプローチから始まり、MDL誘導評価関数を使用して洗練され、遺伝的アルゴリズムによって最適化される。
実験の結果,従来のクラスタリング手法を一貫して上回り,精度の向上,安定性の向上,バイアス低減を実現している。
論文 参考訳(メタデータ) (2024-11-26T20:26:14Z) - From A-to-Z Review of Clustering Validation Indices [4.08908337437878]
我々は、最も一般的なクラスタリングアルゴリズムを用いて、内部および外部クラスタリング検証指標の性能をレビューし、評価する。
内部クラスタリング検証と外部クラスタリング検証の両方の機能を調べるための分類フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T13:52:02Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Learning the Precise Feature for Cluster Assignment [39.320210567860485]
表現学習とクラスタリングを1つのパイプラインに初めて統合するフレームワークを提案する。
提案フレームワークは,近年開発された生成モデルを用いて,本質的な特徴を学習する能力を活用している。
実験の結果,提案手法の性能は,最先端の手法よりも優れているか,少なくとも同等であることがわかった。
論文 参考訳(メタデータ) (2021-06-11T04:08:54Z) - Fairness, Semi-Supervised Learning, and More: A General Framework for
Clustering with Stochastic Pairwise Constraints [32.19047459493177]
我々は,いくつかの本質的クラスタリングの目的に組み込んだ,新しいemphstochastic pairwise制約系を導入する。
これらの制約は,半教師付き学習における emphinvidual fairness や emphmust-link 制約など,興味をそそるアプリケーションの集合を簡潔にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-02T20:27:58Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。