論文の概要: Hierarchical Clustering using Reversible Binary Cellular Automata for High-Dimensional Data
- arxiv url: http://arxiv.org/abs/2408.02250v1
- Date: Mon, 5 Aug 2024 05:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 14:26:02.859168
- Title: Hierarchical Clustering using Reversible Binary Cellular Automata for High-Dimensional Data
- Title(参考訳): 高次元データに対する可逆二元セルオートマタを用いた階層クラスタリング
- Authors: Baby C. J., Kamalika Bhattacharjee,
- Abstract要約: セルオートマトン(CA)ベースのクラスタリングでは、2つのオブジェクトが同じサイクルに属している場合、それらは密接に関連しており、同じクラスタの一部であると考えられている。
本稿では,各サイクルの各要素の中央値に基づいて,2つの異なるサイクルのオブジェクト間の関係を同定し,次の段階にグループ化できるようにする。
様々なパフォーマンス指標を持つ標準ベンチマークデータセットに対して検証された場合、アルゴリズムは2次時間複雑性を持つ既存のアルゴリズムと同等である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes a hierarchical clustering algorithm for high-dimensional datasets using the cyclic space of reversible finite cellular automata. In cellular automaton (CA) based clustering, if two objects belong to the same cycle, they are closely related and considered as part of the same cluster. However, if a high-dimensional dataset is clustered using the cycles of one CA, closely related objects may belong to different cycles. This paper identifies the relationship between objects in two different cycles based on the median of all elements in each cycle so that they can be grouped in the next stage. Further, to minimize the number of intermediate clusters which in turn reduces the computational cost, a rule selection strategy is taken to find the best rules based on information propagation and cycle structure. After encoding the dataset using frequency-based encoding such that the consecutive data elements maintain a minimum hamming distance in encoded form, our proposed clustering algorithm iterates over three stages to finally cluster the data elements into the desired number of clusters given by user. This algorithm can be applied to various fields, including healthcare, sports, chemical research, agriculture, etc. When verified over standard benchmark datasets with various performance metrics, our algorithm is at par with the existing algorithms with quadratic time complexity.
- Abstract(参考訳): 本研究では,可逆有限セルオートマトンを用いた高次元データセットの階層的クラスタリングアルゴリズムを提案する。
セルオートマトン(CA)ベースのクラスタリングでは、2つのオブジェクトが同じサイクルに属している場合、それらは密接に関連しており、同じクラスタの一部であると考えられている。
しかし、高次元データセットが1つのCAのサイクルを使ってクラスタ化されている場合、密接に関連するオブジェクトは異なるサイクルに属する可能性がある。
本稿では,各サイクルの各要素の中央値に基づいて,2つの異なるサイクルのオブジェクト間の関係を同定し,次の段階にグループ化できるようにする。
さらに、計算コストを低減した中間クラスタ数を最小化するために、情報伝搬とサイクル構造に基づく最適なルールを見つけるためのルール選択戦略を採用する。
連続するデータ要素が符号化された形式で最小ハミング距離を維持するように、周波数ベース符号化を用いてデータセットを符号化した後、提案するクラスタリングアルゴリズムは3段階にわたって反復して、最終的にデータ要素をユーザの希望するクラスタ数にクラスタリングする。
このアルゴリズムは医療、スポーツ、化学研究、農業など様々な分野に適用できる。
様々なパフォーマンス指標を持つ標準ベンチマークデータセットに対して検証された場合、アルゴリズムは2次時間複雑性を持つ既存のアルゴリズムと同等である。
関連論文リスト
- Gödel Number based Clustering Algorithm with Decimal First Degree Cellular Automata [0.0]
本稿では,FDCAに基づくクラスタリングアルゴリズムを提案する。
データオブジェクトは、G"odel番号ベースのエンコーディングを使用して十進文字列にエンコードされる。
既存のクラスタリングアルゴリズムと比較して,提案アルゴリズムは性能が向上する。
論文 参考訳(メタデータ) (2024-05-08T08:30:34Z) - Single-cell Multi-view Clustering via Community Detection with Unknown
Number of Clusters [64.31109141089598]
シングルセルデータに適した,革新的なマルチビュークラスタリング手法である scUNC を導入する。
scUNCは、事前に定義された数のクラスタを必要とせずに、異なるビューからの情報をシームレスに統合する。
3つの異なる単一セルデータセットを用いて,SCUNCの総合評価を行った。
論文 参考訳(メタデータ) (2023-11-28T08:34:58Z) - Determining the Optimal Number of Clusters for Time Series Datasets with
Symbolic Pattern Forest [0.0]
最適なクラスタ数(例えば k)を計算するという問題は、そのような方法にとって重要な課題の1つである。
本研究では,時系列データセットの最適なクラスタ数を決定するために,シンボリックパターンフォレストアルゴリズムを拡張した。
UCRアーカイブデータセットに対する我々のアプローチを検証し、これまでの実験結果はベースラインよりも大幅に改善された。
論文 参考訳(メタデータ) (2023-10-01T23:33:37Z) - Data Aggregation for Hierarchical Clustering [0.3626013617212666]
BETULAは、よく知られたBIRCHデータ集約アルゴリズムの数値的に安定したバージョンである。
これは、クラスタリングの品質に小さな損失しか与えずに、制約のあるリソースを持つシステムでHACを実行可能なものにするために使用できる。
論文 参考訳(メタデータ) (2023-09-05T19:39:43Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - ck-means, a novel unsupervised learning method that combines fuzzy and
crispy clustering methods to extract intersecting data [1.827510863075184]
本稿では,2つの特徴以上の共通点を共有するデータをクラスタリングする手法を提案する。
この手法の主な考え方は、ファジィ C-Means (FCM) アルゴリズムを用いてファジィクラスタを生成することである。
このアルゴリズムはまた、シルエット指数(SI)によって与えられるクラスタの一貫性に従って、FCMとk平均アルゴリズムのための最適なクラスタ数を見つけることができる。
論文 参考訳(メタデータ) (2022-06-17T19:29:50Z) - Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。
A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。
実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2021-04-14T18:15:27Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - Similarity-based Distance for Categorical Clustering using Space
Structure [5.543220407902113]
我々は,分類データのオブジェクト間の距離を求めるために,新しい距離距離,類似度ベース距離(SBD)を提案している。
我々の提案した距離(SBD)は、分類データセットで使用する場合、k-modesや他のSBC型アルゴリズムのような既存のアルゴリズムよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-11-19T15:18:26Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。