論文の概要: A review of systematic selection of clustering algorithms and their
evaluation
- arxiv url: http://arxiv.org/abs/2106.12792v1
- Date: Thu, 24 Jun 2021 07:01:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 15:02:56.369689
- Title: A review of systematic selection of clustering algorithms and their
evaluation
- Title(参考訳): クラスタリングアルゴリズムの体系的選択とその評価
- Authors: Marc Wegmann, Domenique Zipperling, Jonas Hillenbrand and J\"urgen
Fleischer
- Abstract要約: 本稿では,クラスタリングアルゴリズムとそれに対応する検証概念の体系的選択ロジックを同定することを目的とする。
目標は、潜在的なユーザが自分のニーズと基盤となるデータクラスタリングの問題の性質に最も適したアルゴリズムを選択できるようにすることだ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Data analysis plays an indispensable role for value creation in industry.
Cluster analysis in this context is able to explore given datasets with little
or no prior knowledge and to identify unknown patterns. As (big) data
complexity increases in the dimensions volume, variety, and velocity, this
becomes even more important. Many tools for cluster analysis have been
developed from early on and the variety of different clustering algorithms is
huge. As the selection of the right clustering procedure is crucial to the
results of the data analysis, users are in need for support on their journey of
extracting knowledge from raw data. Thus, the objective of this paper lies in
the identification of a systematic selection logic for clustering algorithms
and corresponding validation concepts. The goal is to enable potential users to
choose an algorithm that fits best to their needs and the properties of their
underlying data clustering problem. Moreover, users are supported in selecting
the right validation concepts to make sense of the clustering results. Based on
a comprehensive literature review, this paper provides assessment criteria for
clustering method evaluation and validation concept selection. The criteria are
applied to several common algorithms and the selection process of an algorithm
is supported by the introduction of pseudocode-based routines that consider the
underlying data structure.
- Abstract(参考訳): データ分析は、産業における価値創造に不可欠である。
このコンテキストにおけるクラスタ分析は、事前知識のほとんど、あるいは全くないデータセットを探索し、未知のパターンを識別することができる。
大きな)データ複雑性が次元のボリューム、バラエティ、ベロシティで増加するにつれ、これはさらに重要になります。
クラスタ分析のための多くのツールが初期から開発されており、さまざまなクラスタリングアルゴリズムは巨大である。
データ分析の結果には,適切なクラスタリング手順の選択が不可欠であるため,ユーザは生データから知識を抽出する作業を支援する必要がある。
そこで本論文の目的は,クラスタリングアルゴリズムとそれに対応する検証概念のための体系的選択論理の同定にある。
目標は、潜在的なユーザが自分のニーズと基盤となるデータクラスタリングの問題の性質に最適なアルゴリズムを選択できるようにすることだ。
さらに、ユーザーはクラスタリング結果を理解するために正しい検証概念を選択することができる。
本稿では,包括的文献レビューに基づき,クラスタリング手法の評価と検証概念の選択のための評価基準を提案する。
この基準はいくつかの共通アルゴリズムに適用され、基礎となるデータ構造を考慮した疑似符号ベースのルーチンの導入によってアルゴリズムの選択プロセスが支持される。
関連論文リスト
- From A-to-Z Review of Clustering Validation Indices [4.08908337437878]
我々は、最も一般的なクラスタリングアルゴリズムを用いて、内部および外部クラスタリング検証指標の性能をレビューし、評価する。
内部クラスタリング検証と外部クラスタリング検証の両方の機能を調べるための分類フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T13:52:02Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - A Machine Learning-Based Framework for Clustering Residential
Electricity Load Profiles to Enhance Demand Response Programs [0.0]
実ケーススタディを通じて最適な負荷プロファイルを実現するために,機械学習に基づく新しいフレームワークを提案する。
本稿では,実ケーススタディを通じて最適な負荷プロファイルを実現するために,機械学習に基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T11:23:26Z) - Deep Clustering: A Comprehensive Survey [53.387957674512585]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。
ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。
ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文 参考訳(メタデータ) (2022-10-09T02:31:32Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Seeking the Truth Beyond the Data. An Unsupervised Machine Learning
Approach [0.0]
クラスタリングは、ラベルのない要素/オブジェクトがグループ化される、教師なしの機械学習方法論である。
この記事では、最も広く使われているクラスタリング手法について詳しく説明する。
3つのデータセットに基づいて、これらのアルゴリズムのクラスタリング効率の比較を強調している。
論文 参考訳(メタデータ) (2022-07-14T14:22:36Z) - Ensemble Method for Cluster Number Determination and Algorithm Selection
in Unsupervised Learning [0.0]
教師なしの学習は、現場で使われる専門知識の必要性に悩まされる。
最小限の入力で活用できるアンサンブルクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-23T04:59:10Z) - DAC: Deep Autoencoder-based Clustering, a General Deep Learning
Framework of Representation Learning [0.0]
dac,deep autoencoder-based clustering,深層ニューロンネットワークを用いてクラスタリング表現を学ぶためのデータ駆動フレームワークを提案する。
実験結果から,KMeansクラスタリングアルゴリズムの性能をさまざまなデータセット上で効果的に向上させることができた。
論文 参考訳(メタデータ) (2021-02-15T11:31:00Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Topology-based Clusterwise Regression for User Segmentation and Demand
Forecasting [63.78344280962136]
本研究は,パブリックおよび新規な商用データ集合を用いて,アナリストがユーザベースをクラスタリングし,詳細なレベルで需要を計画できることを示す。
本研究は,TDAに基づく時系列クラスタリングと行列因数分解法によるクラスタ回帰を実践者にとって実行可能なツールとして導入することを目的とする。
論文 参考訳(メタデータ) (2020-09-08T12:10:10Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。