論文の概要: Data Aggregation for Hierarchical Clustering
- arxiv url: http://arxiv.org/abs/2309.02552v1
- Date: Tue, 5 Sep 2023 19:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 17:46:14.977337
- Title: Data Aggregation for Hierarchical Clustering
- Title(参考訳): 階層クラスタリングのためのデータ集約
- Authors: Erich Schubert and Andreas Lang
- Abstract要約: BETULAは、よく知られたBIRCHデータ集約アルゴリズムの数値的に安定したバージョンである。
これは、クラスタリングの品質に小さな損失しか与えずに、制約のあるリソースを持つシステムでHACを実行可能なものにするために使用できる。
- 参考スコア(独自算出の注目度): 0.3626013617212666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical Agglomerative Clustering (HAC) is likely the earliest and most
flexible clustering method, because it can be used with many distances,
similarities, and various linkage strategies. It is often used when the number
of clusters the data set forms is unknown and some sort of hierarchy in the
data is plausible. Most algorithms for HAC operate on a full distance matrix,
and therefore require quadratic memory. The standard algorithm also has cubic
runtime to produce a full hierarchy. Both memory and runtime are especially
problematic in the context of embedded or otherwise very resource-constrained
systems. In this section, we present how data aggregation with BETULA, a
numerically stable version of the well known BIRCH data aggregation algorithm,
can be used to make HAC viable on systems with constrained resources with only
small losses on clustering quality, and hence allow exploratory data analysis
of very large data sets.
- Abstract(参考訳): 階層的集約クラスタリング(HAC)は、多くの距離、類似性、および様々なリンク戦略で使用できるため、最も早く、最も柔軟なクラスタリング法である可能性が高い。
データセットが生成するクラスタの数が不明で、データの何らかの階層化が可能である場合、しばしば使用される。
HACのほとんどのアルゴリズムは完全距離行列で動作し、従って二次記憶を必要とする。
標準アルゴリズムは、完全な階層を生成するためにキュービックランタイムも備えている。
メモリとランタイムは、組み込みシステムやリソースに制約のあるシステムのコンテキストで特に問題となる。
本稿では、よく知られたBIRCHデータ集約アルゴリズムの数値的安定バージョンであるBETULAによるデータ集約を用いて、クラスタリング品質に小さな損失しか与えない制約のあるリソースを持つシステムにおいて、HACを実行可能なものにし、非常に大きなデータセットの探索データ解析を可能にする方法について述べる。
関連論文リスト
- Hierarchical Clustering using Reversible Binary Cellular Automata for High-Dimensional Data [0.0]
セルオートマトン(CA)ベースのクラスタリングでは、2つのオブジェクトが同じサイクルに属している場合、それらは密接に関連しており、同じクラスタの一部であると考えられている。
本稿では,各サイクルの各要素の中央値に基づいて,2つの異なるサイクルのオブジェクト間の関係を同定し,次の段階にグループ化できるようにする。
様々なパフォーマンス指標を持つ標準ベンチマークデータセットに対して検証された場合、アルゴリズムは2次時間複雑性を持つ既存のアルゴリズムと同等である。
論文 参考訳(メタデータ) (2024-08-05T05:48:45Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - GBMST: An Efficient Minimum Spanning Tree Clustering Based on
Granular-Ball Computing [78.92205914422925]
多粒度グラニュラバルと最小スパンニングツリー(MST)を組み合わせたクラスタリングアルゴリズムを提案する。
粒度が粗い粒状ボールを構築し,さらに粒状ボールとMSTを用いて「大規模優先度」に基づくクラスタリング手法を実装した。
いくつかのデータセットの実験結果は、アルゴリズムの威力を示している。
論文 参考訳(メタデータ) (2023-03-02T09:04:35Z) - Scalable Clustering: Large Scale Unsupervised Learning of Gaussian
Mixture Models with Outliers [5.478764356647437]
本稿では,損失最小化に基づくロバストなクラスタリングアルゴリズムを提案する。
これはアルゴリズムが高い確率で高い精度を得るという理論的保証を提供する。
実世界の大規模データセットの実験では、アルゴリズムの有効性が示されている。
論文 参考訳(メタデータ) (2023-02-28T14:39:18Z) - Genie: A new, fast, and outlier-resistant hierarchical clustering
algorithm [3.7491936479803054]
我々はGenieと呼ばれる新しい階層的クラスタリングリンク基準を提案する。
我々のアルゴリズムは、2つのクラスタを、選択された経済不平等尺度が与えられたしきい値を超えないようにリンクする。
このアルゴリズムのリファレンス実装は、Rのためのオープンソースの'genie'パッケージに含まれている。
論文 参考訳(メタデータ) (2022-09-13T06:42:53Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Scaling Hierarchical Agglomerative Clustering to Billion-sized Datasets [0.0]
本稿では,並列クラスタを効率的にマージするための新しい戦略を用いて,HACの分散アルゴリズムであるReciprocal Agglomerative Clustering (RAC)を提案する。
大規模な実験では、RACは1時間以内で数十億のエッジで接続された数十億のデータポイント上のHAC階層を復元できることを示す。
論文 参考訳(メタデータ) (2021-05-25T04:14:21Z) - Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。
A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。
実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2021-04-14T18:15:27Z) - Similarity-based Distance for Categorical Clustering using Space
Structure [5.543220407902113]
我々は,分類データのオブジェクト間の距離を求めるために,新しい距離距離,類似度ベース距離(SBD)を提案している。
我々の提案した距離(SBD)は、分類データセットで使用する場合、k-modesや他のSBC型アルゴリズムのような既存のアルゴリズムよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-11-19T15:18:26Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。