論文の概要: Massively-Parallel Heat Map Sorting and Applications To Explainable
Clustering
- arxiv url: http://arxiv.org/abs/2309.07486v1
- Date: Thu, 14 Sep 2023 07:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 15:46:15.449285
- Title: Massively-Parallel Heat Map Sorting and Applications To Explainable
Clustering
- Title(参考訳): 大規模並列熱マップソルティングと説明可能なクラスタリングへの応用
- Authors: Sepideh Aghamolaei and Mohammad Ghodsi
- Abstract要約: 我々は,クラスタ(ラベル)を保存しながら,点と次元を再順序付けし,マージする熱マップソート問題を導入する。
クラスタが接続されている場合、すなわち複数のクラスタに分割されず、2つのクラスタがマージされない場合、クラスタは保存される。
NP-hard特殊ケースに対する近似アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.544681800932596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a set of points labeled with $k$ labels, we introduce the heat map
sorting problem as reordering and merging the points and dimensions while
preserving the clusters (labels). A cluster is preserved if it remains
connected, i.e., if it is not split into several clusters and no two clusters
are merged.
We prove the problem is NP-hard and we give a fixed-parameter algorithm with
a constant number of rounds in the massively parallel computation model, where
each machine has a sublinear memory and the total memory of the machines is
linear. We give an approximation algorithm for a NP-hard special case of the
problem. We empirically compare our algorithm with k-means and density-based
clustering (DBSCAN) using a dimensionality reduction via locality-sensitive
hashing on several directed and undirected graphs of email and computer
networks.
- Abstract(参考訳): k$ラベルでラベル付けされた一組の点が与えられた場合、クラスタ(ラベル)を保存しながら点と次元を再順序付けしてマージする熱マップソート問題を導入する。
クラスタが接続されている場合、すなわち複数のクラスタに分割されず、2つのクラスタがマージされない場合、クラスタは保存される。
この問題がnpハードであることを証明し、超並列計算モデルにおいて一定数のラウンドを持つ固定パラメータアルゴリズムを与え、各マシンがサブリニアメモリを持ち、マシン全体のメモリが線形であることを示す。
この問題のnpハード特殊ケースに対して近似アルゴリズムを与える。
我々は,eメールとコンピュータネットワークの有向および非有向グラフ上で局所性に敏感なハッシュによる次元性低減手法を用いて,k-meansおよびdential-based clustering (dbscan) と比較した。
関連論文リスト
- An SDP-based Branch-and-Cut Algorithm for Biclustering [0.0]
本稿では,二クラスタリング問題に対する分枝切断アルゴリズムを提案する。
提案アルゴリズムは汎用的な解法よりも20倍大きな解法を解くことができることを示す。
論文 参考訳(メタデータ) (2024-03-17T21:43:19Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - A Dynamical Systems Algorithm for Clustering in Hyperspectral Imagery [0.18374319565577152]
ハイパースペクトル画像におけるクラスタリングのための新しい動的システムアルゴリズムを提案する。
このアルゴリズムの主な考え方は、密度を増加させる方向に「データポイントが押される」ことであり、同じ密度の領域に終わるピクセル群は同じクラスに属する。
本手法は, 既定素材のクラスを基礎事実として, k-means アルゴリズムと性能を比較した都市景観におけるアルゴリズムの評価を行う。
論文 参考訳(メタデータ) (2022-07-21T17:31:57Z) - Correlation Clustering in Constant Many Parallel Rounds [42.10280805559555]
相関クラスタリングは教師なし学習において中心的なトピックであり、MLやデータマイニングに多くの応用がある。
本研究では,従来よりもかなり高速な超並列計算(MPC)アルゴリズムを提案する。
我々のアルゴリズムは,ノード数にメモリサブリニアを持つマシンを使用し,一定回数のラウンドでのみ実行しながら,一定の近似を返す。
論文 参考訳(メタデータ) (2021-06-15T21:45:45Z) - ParChain: A Framework for Parallel Hierarchical Agglomerative Clustering
using Nearest-Neighbor Chain [6.824747267214373]
本稿では並列階層クラスタリング(HAC)アルゴリズムを設計するためのParChainフレームワークを提案する。
従来の並列HACアルゴリズムと比較して、我々の新しいアルゴリズムは線形メモリしか必要とせず、大規模データセットにスケーラブルである。
我々のアルゴリズムは、既存のアルゴリズムでは処理できない数千万のポイントでデータセットのサイズにスケールすることができる。
論文 参考訳(メタデータ) (2021-06-08T23:13:27Z) - Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。
クエリを少なくすることで、問題の解決が容易になる。
論文 参考訳(メタデータ) (2021-06-04T02:32:26Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z) - Clustering by Constructing Hyper-Planes [0.0]
データポイントを識別するハイパープレーンを探索し,クラスタリングアルゴリズムを提案する。
中心とクラスターの数を決定するために点間の限界空間に依存する。
このアルゴリズムは線形構造に基づいており、データセットの分布を正確にかつ柔軟に近似することができる。
論文 参考訳(メタデータ) (2020-04-25T08:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。