論文の概要: HAWKS: Evolving Challenging Benchmark Sets for Cluster Analysis
- arxiv url: http://arxiv.org/abs/2102.06940v1
- Date: Sat, 13 Feb 2021 15:01:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:23:20.900074
- Title: HAWKS: Evolving Challenging Benchmark Sets for Cluster Analysis
- Title(参考訳): HAWKS:クラスタ分析のためのChallenging Benchmark Setsの進化
- Authors: Cameron Shand, Richard Allmendinger, Julia Handl, Andrew Webb, and
John Keane
- Abstract要約: クラスタリングアルゴリズムの包括的なベンチマークは難しい。
厳格なベンチマークのベストプラクティスに関する合意はありません。
このようなベンチマークのフレキシブルな生成を支援するために,進化的アルゴリズムが果たす重要な役割を実証する。
- 参考スコア(独自算出の注目度): 2.5329716878122404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehensive benchmarking of clustering algorithms is rendered difficult by
two key factors: (i)~the elusiveness of a unique mathematical definition of
this unsupervised learning approach and (ii)~dependencies between the
generating models or clustering criteria adopted by some clustering algorithms
and indices for internal cluster validation. Consequently, there is no
consensus regarding the best practice for rigorous benchmarking, and whether
this is possible at all outside the context of a given application. Here, we
argue that synthetic datasets must continue to play an important role in the
evaluation of clustering algorithms, but that this necessitates constructing
benchmarks that appropriately cover the diverse set of properties that impact
clustering algorithm performance. Through our framework, HAWKS, we demonstrate
the important role evolutionary algorithms play to support flexible generation
of such benchmarks, allowing simple modification and extension. We illustrate
two possible uses of our framework: (i)~the evolution of benchmark data
consistent with a set of hand-derived properties and (ii)~the generation of
datasets that tease out performance differences between a given pair of
algorithms. Our work has implications for the design of clustering benchmarks
that sufficiently challenge a broad range of algorithms, and for furthering
insight into the strengths and weaknesses of specific approaches.
- Abstract(参考訳): クラスタリングアルゴリズムの総合的なベンチマークは、 (i) - この教師なし学習アプローチのユニークな数学的定義の解明と (ii) - クラスタリングアルゴリズムで採用される生成モデルやクラスタリング基準と内部クラスタバリデーションの指標との依存性の2つの主要な要因によって難しい。
したがって、厳格なベンチマークのベストプラクティスと、それが特定のアプリケーションのコンテキスト外でまったく可能かどうかに関する合意はありません。
ここでは、合成データセットはクラスタリングアルゴリズムの評価において重要な役割を担わなければならないが、クラスタリングアルゴリズムのパフォーマンスに影響を及ぼす多様な特性を適切にカバーするベンチマークを構築する必要があると論じる。
フレームワークであるHAWKSを通じて、そのようなベンチマークの柔軟な生成をサポートするために進化的アルゴリズムが果たす重要な役割を実証し、簡単な修正と拡張を可能にします。
i)手がかりのプロパティの集合と一致するベンチマークデータの進化、(ii) 与えられたアルゴリズムのペア間のパフォーマンスの相違を予見するデータセットの生成。
我々の研究は、広範囲のアルゴリズムに十分に挑戦するクラスタリングベンチマークの設計と、特定のアプローチの強みと弱みに関する洞察を深めることに意味があります。
関連論文リスト
- A structured regression approach for evaluating model performance across
intersectional subgroups [57.84444882410051]
分散評価は、AIフェアネスアセスメントにおける中心的なタスクであり、異なるサブグループ間でAIシステムのパフォーマンスを測定することを目的としている。
本稿では,システム性能評価の信頼性を実証する,非凝集評価のための構造化回帰手法を提案する。
我々は2つの公開データセットといくつかの半合成データの変種についてアプローチを評価した。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Transductive Few-Shot Learning: Clustering is All You Need? [31.21306826132773]
そこで本研究では,プロトタイプをベースとした超越的数ショット学習の汎用的定式化について検討する。
提案手法は, 精度と最適化の観点から, 大きな問題にスケールアップしながら, 競争性能を向上する。
驚いたことに、私たちの一般的なモデルは、最先端の学習と比較して、すでに競争力のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-06-16T16:14:01Z) - Learning the Precise Feature for Cluster Assignment [39.320210567860485]
表現学習とクラスタリングを1つのパイプラインに初めて統合するフレームワークを提案する。
提案フレームワークは,近年開発された生成モデルを用いて,本質的な特徴を学習する能力を活用している。
実験の結果,提案手法の性能は,最先端の手法よりも優れているか,少なくとも同等であることがわかった。
論文 参考訳(メタデータ) (2021-06-11T04:08:54Z) - Performance evaluation results of evolutionary clustering algorithm star
for clustering heterogeneous datasets [15.154538450706474]
本稿では,進化的クラスタリングアルゴリズムstar(eca*)の性能評価のためのデータを提案する。
従来の5つのクラスタリングアルゴリズムに対するeca*の性能を調べるために、2つの実験手法が用いられた。
論文 参考訳(メタデータ) (2021-04-30T08:17:19Z) - Fairness, Semi-Supervised Learning, and More: A General Framework for
Clustering with Stochastic Pairwise Constraints [32.19047459493177]
我々は,いくつかの本質的クラスタリングの目的に組み込んだ,新しいemphstochastic pairwise制約系を導入する。
これらの制約は,半教師付き学習における emphinvidual fairness や emphmust-link 制約など,興味をそそるアプリケーションの集合を簡潔にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-02T20:27:58Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Simple and Scalable Sparse k-means Clustering via Feature Ranking [14.839931533868176]
直感的で実装が簡単で,最先端のアルゴリズムと競合する,スパースk平均クラスタリングのための新しいフレームワークを提案する。
本手法は,属性のサブセットのクラスタリングや部分的に観測されたデータ設定など,タスク固有のアルゴリズムに容易に一般化できる。
論文 参考訳(メタデータ) (2020-02-20T02:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。