論文の概要: A parameter-free clustering algorithm for missing datasets
- arxiv url: http://arxiv.org/abs/2404.05363v1
- Date: Mon, 8 Apr 2024 09:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 14:54:22.249222
- Title: A parameter-free clustering algorithm for missing datasets
- Title(参考訳): 欠落したデータセットに対するパラメータフリークラスタリングアルゴリズム
- Authors: Qi Li, Xianjun Zeng, Shuliang Wang, Wenhao Zhu, Shijie Ruan, Zhimeng Yuan,
- Abstract要約: 欠落したデータセットに対する既存のクラスタリングアルゴリズムは、まず欠落した値を暗示し、次にクラスタリングを実行する。
入力パラメータが多すぎると、正確なクラスタリング結果を得るのが困難になる。
本研究では,SDCという単一次元クラスタリングアルゴリズムを提案する。このアルゴリズムは計算処理を除去し,決定グラフを欠落したデータセットに適応させる。
- 参考スコア(独自算出の注目度): 15.036437556125653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing datasets, in which some objects have missing values in certain dimensions, are prevalent in the Real-world. Existing clustering algorithms for missing datasets first impute the missing values and then perform clustering. However, both the imputation and clustering processes require input parameters. Too many input parameters inevitably increase the difficulty of obtaining accurate clustering results. Although some studies have shown that decision graphs can replace the input parameters of clustering algorithms, current decision graphs require equivalent dimensions among objects and are therefore not suitable for missing datasets. To this end, we propose a Single-Dimensional Clustering algorithm, i.e., SDC. SDC, which removes the imputation process and adapts the decision graph to the missing datasets by splitting dimension and partition intersection fusion, can obtain valid clustering results on the missing datasets without input parameters. Experiments demonstrate that, across three evaluation metrics, SDC outperforms baseline algorithms by at least 13.7%(NMI), 23.8%(ARI), and 8.1%(Purity).
- Abstract(参考訳): ある種のオブジェクトが特定の次元に値を持たないようなデータセットの欠如は、現実世界でよく見られる。
欠落したデータセットに対する既存のクラスタリングアルゴリズムは、まず欠落した値を暗示し、次にクラスタリングを実行する。
しかし、計算とクラスタリングの両方のプロセスは入力パラメータを必要とする。
入力パラメータが多すぎると、正確なクラスタリング結果を得るのが困難になる。
いくつかの研究では、決定グラフはクラスタリングアルゴリズムの入力パラメータを置き換えることができるが、現在の決定グラフはオブジェクト間で等価な次元を必要とするため、欠落したデータセットには適さないことが示されている。
そこで本研究では,SDCという単一次元クラスタリングアルゴリズムを提案する。
SDCは、インプットパラメータなしで、欠落したデータセット上で有効なクラスタリング結果が得られるように、インプット処理を除去し、ディメンテーションと分割交叉融合を分割することで、欠落したデータセットに決定グラフを適用する。
3つの評価指標において、SDCはベースラインアルゴリズムを少なくとも13.7%(NMI)、23.8%(ARI)、8.1%(Purity)で上回っている。
関連論文リスト
- A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Superclustering by finding statistically significant separable groups of
optimal gaussian clusters [0.0]
本稿では,BIC基準の観点から,最適なデータセットをグループ化することで,データセットをクラスタリングするアルゴリズムを提案する。
このアルゴリズムの重要な利点は、既に訓練済みのクラスタに基づいて、新しいデータの正しいスーパークラスタを予測する能力である。
論文 参考訳(メタデータ) (2023-09-05T23:49:46Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - DRBM-ClustNet: A Deep Restricted Boltzmann-Kohonen Architecture for Data
Clustering [0.0]
DRBM-ClustNetと呼ばれるデータクラスタリングのためのベイジアンDeep Restricted Boltzmann-Kohonenアーキテクチャを提案する。
ラベルなしデータの処理は、非線形分離可能なデータセットの効率的なクラスタリングのために、3段階に分けて行われる。
このフレームワークはクラスタリングの精度に基づいて評価され、他の最先端クラスタリング手法と比較してランク付けされる。
論文 参考訳(メタデータ) (2022-05-13T15:12:18Z) - Clustering Plotted Data by Image Segmentation [12.443102864446223]
クラスタリングアルゴリズムは、ラベルなしデータのパターンを検出する主要な分析手法の1つである。
本稿では,人間のクラスタリングデータに着想を得た,2次元空間におけるクラスタリングポイントの全く異なる方法を提案する。
私たちのアプローチであるVisual Clusteringは、従来のクラスタリングアルゴリズムよりもいくつかのアドバンテージを持っています。
論文 参考訳(メタデータ) (2021-10-06T06:19:30Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Measuring inter-cluster similarities with Alpha Shape TRIangulation in
loCal Subspaces (ASTRICS) facilitates visualization and clustering of
high-dimensional data [0.0]
高次元(HD)データのクラスタリングと可視化は、様々な分野において重要なタスクである。
HDデータをクラスタリングする最も効果的なアルゴリズムは、グラフ内のノードによってデータを表現することに基づいている。
本稿では,HDデータポイントのクラスタ間の類似性を計測するASTRICSという手法を提案する。
論文 参考訳(メタデータ) (2021-07-15T20:51:06Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - Probabilistic Partitive Partitioning (PPP) [0.0]
クラスタリングアルゴリズムは一般に2つの一般的な問題に直面している。
彼らは異なる初期条件で異なる設定に収束する。
クラスタの数は、事前に任意に決めなければならない。
論文 参考訳(メタデータ) (2020-03-09T19:18:35Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。