論文の概要: Similarity-based Distance for Categorical Clustering using Space
Structure
- arxiv url: http://arxiv.org/abs/2011.09887v1
- Date: Thu, 19 Nov 2020 15:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 21:26:07.474774
- Title: Similarity-based Distance for Categorical Clustering using Space
Structure
- Title(参考訳): 空間構造を用いたカテゴリクラスタリングのための類似度に基づく距離
- Authors: Utkarsh Nath, Shikha Asrani, Rahul Katarya
- Abstract要約: 我々は,分類データのオブジェクト間の距離を求めるために,新しい距離距離,類似度ベース距離(SBD)を提案している。
我々の提案した距離(SBD)は、分類データセットで使用する場合、k-modesや他のSBC型アルゴリズムのような既存のアルゴリズムよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 5.543220407902113
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Clustering is spotting pattern in a group of objects and resultantly grouping
the similar objects together. Objects have attributes which are not always
numerical, sometimes attributes have domain or categories to which they could
belong to. Such data is called categorical data. To group categorical data many
clustering algorithms are used, among which k- modes algorithm has so far given
the most significant results. Nevertheless, there is still a lot which could be
improved. Algorithms like k-means, fuzzy-c-means or hierarchical have given far
better accuracies with numerical data. In this paper, we have proposed a novel
distance metric, similarity-based distance (SBD) to find the distance between
objects of categorical data. Experiments have shown that our proposed distance
(SBD), when used with the SBC (space structure based clustering) type algorithm
significantly outperforms the existing algorithms like k-modes or other SBC
type algorithms when used on categorical datasets.
- Abstract(参考訳): クラスタリングはオブジェクトのグループにパターンを配置し、結果として同様のオブジェクトをグループ化する。
オブジェクトは必ずしも数値的ではない属性を持ち、時には属性が属することのできるドメインやカテゴリを持つことがある。
このようなデータは分類データと呼ばれる。
分類データのグループ化には、多くのクラスタリングアルゴリズムが使われており、その中でkモードアルゴリズムが最も重要な結果を与えている。
それでもまだ改善の余地はたくさんあります。
k-means、ファジィc-means、階層型アルゴリズムといったアルゴリズムは、数値データにはるかに適している。
本稿では,分類データのオブジェクト間の距離を求めるために,新しい距離距離,類似度に基づく距離(SBD)を提案する。
実験の結果,SBC(空間構造に基づくクラスタリング)型アルゴリズムを用いて提案した距離(SBD)は,分類的データセットを用いた場合,k-modesや他のSBC型アルゴリズムよりも有意に優れていた。
関連論文リスト
- A general framework for distributed approximate similarity search with arbitrary distances [0.5030361857850012]
類似性検索は、情報管理や検索、データ分析といった領域における中心的な問題である。
多くの類似性探索アルゴリズムは、メートル法距離に設計または特に適応している。
本稿では,任意の距離を受け入れる分散近似類似性探索のフレームワークであるGDASCを提案する。
論文 参考訳(メタデータ) (2024-05-22T16:19:52Z) - Data Aggregation for Hierarchical Clustering [0.3626013617212666]
BETULAは、よく知られたBIRCHデータ集約アルゴリズムの数値的に安定したバージョンである。
これは、クラスタリングの品質に小さな損失しか与えずに、制約のあるリソースを持つシステムでHACを実行可能なものにするために使用できる。
論文 参考訳(メタデータ) (2023-09-05T19:39:43Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning [0.0]
我々は、混合カーネルを用いて異種性を測定するKDSUMと呼ばれる計量を提案する。
我々は、KDSUMが既存の混合型メトリクスから均一な異性度メトリクスへの縮小法であることを実証した。
論文 参考訳(メタデータ) (2023-06-02T19:51:48Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - ck-means, a novel unsupervised learning method that combines fuzzy and
crispy clustering methods to extract intersecting data [1.827510863075184]
本稿では,2つの特徴以上の共通点を共有するデータをクラスタリングする手法を提案する。
この手法の主な考え方は、ファジィ C-Means (FCM) アルゴリズムを用いてファジィクラスタを生成することである。
このアルゴリズムはまた、シルエット指数(SI)によって与えられるクラスタの一貫性に従って、FCMとk平均アルゴリズムのための最適なクラスタ数を見つけることができる。
論文 参考訳(メタデータ) (2022-06-17T19:29:50Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。
クエリを少なくすることで、問題の解決が容易になる。
論文 参考訳(メタデータ) (2021-06-04T02:32:26Z) - Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。
A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。
実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2021-04-14T18:15:27Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - Point-Set Kernel Clustering [11.093960688450602]
本稿では,オブジェクトとオブジェクトの集合との類似性を計算する,ポイントセットカーネルと呼ばれる新しい類似度尺度を提案する。
新たなクラスタリング手法は,大規模データセットを扱えるように,効率的かつ効率的であることを示す。
論文 参考訳(メタデータ) (2020-02-14T00:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。