論文の概要: A Computational Theory and Semi-Supervised Algorithm for Clustering
- arxiv url: http://arxiv.org/abs/2306.06974v1
- Date: Mon, 12 Jun 2023 09:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 15:20:11.924625
- Title: A Computational Theory and Semi-Supervised Algorithm for Clustering
- Title(参考訳): クラスタリングのための計算理論と半教師ありアルゴリズム
- Authors: Nassir Mohammad
- Abstract要約: 半教師付きクラスタリングアルゴリズムを提案する。
クラスタリング法のカーネルは、Mohammadの異常検出アルゴリズムである。
結果は、合成および実世界のデータセットで示される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A computational theory for clustering and a semi-supervised clustering
algorithm is presented. Clustering is defined to be the obtainment of groupings
of data such that each group contains no anomalies with respect to a chosen
grouping principle and measure; all other examples are considered to be fringe
points, isolated anomalies, anomalous clusters or unknown clusters. More
precisely, after appropriate modelling under the assumption of uniform random
distribution, any example whose expectation of occurrence is <1 with respect to
a group is considered an anomaly; otherwise it is assigned a membership of that
group. Thus, clustering is conceived as the dual of anomaly detection. The
representation of data is taken to be the Euclidean distance of a point to a
cluster median. This is due to the robustness properties of the median to
outliers, its approximate location of centrality and so that decision
boundaries are general purpose. The kernel of the clustering method is
Mohammad's anomaly detection algorithm, resulting in a parameter-free, fast,
and efficient clustering algorithm. Acknowledging that clustering is an
interactive and iterative process, the algorithm relies on a small fraction of
known relationships between examples. These relationships serve as seeds to
define the user's objectives and guide the clustering process. The algorithm
then expands the clusters accordingly, leaving the remaining examples for
exploration and subsequent iterations. Results are presented on synthetic and
realworld data sets, demonstrating the advantages over the most widely used
clustering methods.
- Abstract(参考訳): クラスタリングのための計算理論と半教師ありクラスタリングアルゴリズムを提案する。
クラスタリングは、各グループが選択されたグループ化原則と測度に関して異常を含まないようなデータのグループ化の獲得であると定義されており、他のすべての例は、フリンジポイント、孤立した異常、異常クラスタ、未知クラスタであると考えられている。
より正確には、一様ランダム分布の仮定の下で適切なモデリングを行った後、群に関して発生の予想が <1 である任意の例は異常と見なされ、そうでなければその群のメンバーシップが割り当てられる。
したがって、クラスタリングは異常検出の二重性として考え出される。
データの表現は、点とクラスタ中央値とのユークリッド距離として取られる。
これは、中央値から外れ値のロバスト性、その近似的な中心位置、そして決定境界が汎用的な目的であるからである。
クラスタリング手法のカーネルはモハマドの異常検出アルゴリズムであり、パラメータフリーで高速で効率的なクラスタリングアルゴリズムをもたらす。
クラスタリングはインタラクティブで反復的なプロセスであることを認め、アルゴリズムはサンプル間の既知の関係のごく一部に依存している。
これらの関係は、ユーザの目的を定義し、クラスタリングプロセスをガイドするための種となる。
その後、アルゴリズムはクラスタを拡張し、残りの例を探索とその後の反復に残した。
結果は合成および実世界のデータセットで示され、最も広く使われているクラスタリング法に対する利点を示す。
関連論文リスト
- UniForCE: The Unimodality Forest Method for Clustering and Estimation of
the Number of Clusters [2.4953699842881605]
我々は,一様性の概念に着目し,局所的一様性クラスタと呼ばれる柔軟なクラスタ定義を提案する。
局所的ユニモーダルクラスタは、データのサブクラスタのペア間で一様性が局所的に保存される限り、拡張される。
局所的な単調クラスタリングのためのUniForCE法を提案する。
論文 参考訳(メタデータ) (2023-12-18T16:19:02Z) - Superclustering by finding statistically significant separable groups of
optimal gaussian clusters [0.0]
本稿では,BIC基準の観点から,最適なデータセットをグループ化することで,データセットをクラスタリングするアルゴリズムを提案する。
このアルゴリズムの重要な利点は、既に訓練済みのクラスタに基づいて、新しいデータの正しいスーパークラスタを予測する能力である。
論文 参考訳(メタデータ) (2023-09-05T23:49:46Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Gradient Based Clustering [72.15857783681658]
本稿では,クラスタリングの品質を計測するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。
アプローチは反復的な2段階の手順(クラスタ割り当てとクラスタセンターのアップデートの代替)であり、幅広い機能に適用できる。
論文 参考訳(メタデータ) (2022-02-01T19:31:15Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。
最近の研究は、低次手法のクラスに対する低い境界を確立している。
意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文 参考訳(メタデータ) (2021-12-07T18:50:17Z) - Clustering Ensemble Meets Low-rank Tensor Approximation [50.21581880045667]
本稿では,複数のクラスタリングを組み合わせ,個々のクラスタリングよりも優れたパフォーマンスを実現するクラスタリングアンサンブルの問題について検討する。
本稿では,この問題をグローバルな視点から解くために,新しい低ランクテンソル近似法を提案する。
7つのベンチマークデータセットを用いた実験の結果,提案手法は12の最先端手法と比較して,クラスタリング性能のブレークスルーを達成した。
論文 参考訳(メタデータ) (2020-12-16T13:01:37Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Revisiting Agglomerative Clustering [4.291340656866855]
クラスターのモデルも採用され、遷移によって囲まれた高密度の核が続き、その後は外れ値が続いた。
得られた結果は、多くの手法が単調なデータ中の2つのクラスタを検出することの検証を含む。
単一リンク法は偽陽性に対する耐性が高かった。
論文 参考訳(メタデータ) (2020-05-16T14:07:25Z) - Point-Set Kernel Clustering [11.093960688450602]
本稿では,オブジェクトとオブジェクトの集合との類似性を計算する,ポイントセットカーネルと呼ばれる新しい類似度尺度を提案する。
新たなクラスタリング手法は,大規模データセットを扱えるように,効率的かつ効率的であることを示す。
論文 参考訳(メタデータ) (2020-02-14T00:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。