論文の概要: A Computational Theory and Semi-Supervised Algorithm for Clustering
- arxiv url: http://arxiv.org/abs/2306.06974v2
- Date: Wed, 16 Jul 2025 08:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:10.926823
- Title: A Computational Theory and Semi-Supervised Algorithm for Clustering
- Title(参考訳): クラスタリングのための計算理論と半スーパービジョンアルゴリズム
- Authors: Nassir Mohammad,
- Abstract要約: クラスタリングは異常のないデータのグループ化の獲得である。
クラスタリング手法のカーネルは知覚異常検出アルゴリズムである。
半教師付きクラスタリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A computational theory for clustering and a semi-supervised clustering algorithm is presented. Clustering is defined to be the obtainment of groupings of data such that each group contains no anomalies with respect to a chosen grouping principle and measure; all other examples are considered to be fringe points, isolated anomalies, anomalous clusters or unknown clusters. More precisely, after appropriate modelling under the assumption of uniform random distribution, any example whose expectation of occurrence is <1 with respect to a group is considered an anomaly; otherwise it is assigned a membership of that group. Thus, clustering is conceived as the dual of anomaly detection. The representation of data is taken to be the Euclidean distance of a point to a cluster median. This is due to the robustness properties of the median to outliers, its approximate location of centrality and so that decision boundaries are general purpose. The kernel of the clustering method is the perception anomaly detection algorithm, resulting in a parameter-free, fast, and efficient clustering algorithm. Acknowledging that clustering is an interactive and iterative process, the algorithm relies on a small fraction of known relationships between examples. These relationships serve as seeds to define the user's objectives and guide the clustering process. The method then expands the clusters accordingly, leaving the remaining examples for exploration and subsequent iterations. Results are presented on synthetic and realworld data sets, demonstrating the advantages over the most popular unsupervised and semi-supervised clustering methods.
- Abstract(参考訳): クラスタリングの計算理論と半教師付きクラスタリングアルゴリズムを示す。
クラスタリングは、選択されたグループ化原理と測度に関して各群が異常を含まないようなデータのグループ化の獲得であると定義されている。
より正確には、一様ランダム分布の仮定の下で適切なモデリングを行った後、群に関して発生の予想が <1 である任意の例は異常と見なされ、そうでなければその群のメンバーシップが割り当てられる。
したがって、クラスタリングは異常検出の二重性として考え出される。
データの表現は、クラスタ中央への点のユークリッド距離とみなす。
これは、中央値から外れ値のロバスト性、その近似的な中心位置、そして決定境界が汎用的な目的であるからである。
クラスタリング手法のカーネルは知覚異常検出アルゴリズムであり、パラメータフリーで高速で効率的なクラスタリングアルゴリズムをもたらす。
クラスタリングはインタラクティブで反復的なプロセスであることを認め、アルゴリズムはサンプル間の既知の関係のごく一部に依存している。
これらの関係は、ユーザの目的を定義し、クラスタリングプロセスを導くために、シードとして機能する。
メソッドはクラスタをそれに従って拡張し、残りの例を探索とその後のイテレーションに残します。
結果は合成および実世界のデータセットで示され、最も人気のある教師なしおよび半教師付きクラスタリング法に対する利点を示す。
関連論文リスト
- Counterfactual Explanations for k-means and Gaussian Clustering [1.8561812622368767]
本稿では、妥当性と実現可能性の制約を含むモデルベースのクラスタリングに対する反事実の一般的な定義について述べる。
提案手法は, 現実性, 対象クラスタ, 動作可能な, 不変な特徴を示す2値マスク, クラスタ境界からどの程度の距離を指定すべきかを示す可視性係数を入力として行う。
論文 参考訳(メタデータ) (2025-01-17T14:56:20Z) - k-HyperEdge Medoids for Clustering Ensemble [18.340202398732632]
クラスタリングアンサンブルはk-HyperEdge Medoids発見問題として定式化されている。
k-HyperEdge Medoidsに基づくクラスタリングアンサンブル法を提案する。
本手法の収束性は20データセットの実験的解析によって検証される。
論文 参考訳(メタデータ) (2024-12-11T11:04:17Z) - UniForCE: The Unimodality Forest Method for Clustering and Estimation of
the Number of Clusters [2.4953699842881605]
我々は,一様性の概念に着目し,局所的一様性クラスタと呼ばれる柔軟なクラスタ定義を提案する。
局所的ユニモーダルクラスタは、データのサブクラスタのペア間で一様性が局所的に保存される限り、拡張される。
局所的な単調クラスタリングのためのUniForCE法を提案する。
論文 参考訳(メタデータ) (2023-12-18T16:19:02Z) - Superclustering by finding statistically significant separable groups of
optimal gaussian clusters [0.0]
本稿では,BIC基準の観点から,最適なデータセットをグループ化することで,データセットをクラスタリングするアルゴリズムを提案する。
このアルゴリズムの重要な利点は、既に訓練済みのクラスタに基づいて、新しいデータの正しいスーパークラスタを予測する能力である。
論文 参考訳(メタデータ) (2023-09-05T23:49:46Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Gradient Based Clustering [72.15857783681658]
本稿では,クラスタリングの品質を計測するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。
アプローチは反復的な2段階の手順(クラスタ割り当てとクラスタセンターのアップデートの代替)であり、幅広い機能に適用できる。
論文 参考訳(メタデータ) (2022-02-01T19:31:15Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。
最近の研究は、低次手法のクラスに対する低い境界を確立している。
意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文 参考訳(メタデータ) (2021-12-07T18:50:17Z) - Clustering Ensemble Meets Low-rank Tensor Approximation [50.21581880045667]
本稿では,複数のクラスタリングを組み合わせ,個々のクラスタリングよりも優れたパフォーマンスを実現するクラスタリングアンサンブルの問題について検討する。
本稿では,この問題をグローバルな視点から解くために,新しい低ランクテンソル近似法を提案する。
7つのベンチマークデータセットを用いた実験の結果,提案手法は12の最先端手法と比較して,クラスタリング性能のブレークスルーを達成した。
論文 参考訳(メタデータ) (2020-12-16T13:01:37Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Revisiting Agglomerative Clustering [4.291340656866855]
クラスターのモデルも採用され、遷移によって囲まれた高密度の核が続き、その後は外れ値が続いた。
得られた結果は、多くの手法が単調なデータ中の2つのクラスタを検出することの検証を含む。
単一リンク法は偽陽性に対する耐性が高かった。
論文 参考訳(メタデータ) (2020-05-16T14:07:25Z) - Point-Set Kernel Clustering [11.093960688450602]
本稿では,オブジェクトとオブジェクトの集合との類似性を計算する,ポイントセットカーネルと呼ばれる新しい類似度尺度を提案する。
新たなクラスタリング手法は,大規模データセットを扱えるように,効率的かつ効率的であることを示す。
論文 参考訳(メタデータ) (2020-02-14T00:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。