論文の概要: Relational Algorithms for k-means Clustering
- arxiv url: http://arxiv.org/abs/2008.00358v2
- Date: Thu, 20 May 2021 22:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 01:17:53.126891
- Title: Relational Algorithms for k-means Clustering
- Title(参考訳): k平均クラスタリングのための関係アルゴリズム
- Authors: Benjamin Moseley, Kirk Pruhs, Alireza Samadian, Yuyan Wang
- Abstract要約: 本稿では,関係アルゴリズムモデルにおいて効率的なk平均近似アルゴリズムを提案する。
実行時間は潜在的に$N$よりも小さくなり、リレーショナルデータベースが表すデータポイントの数はクラスタ化される。
- 参考スコア(独自算出の注目度): 17.552485682328772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper gives a k-means approximation algorithm that is efficient in the
relational algorithms model. This is an algorithm that operates directly on a
relational database without performing a join to convert it to a matrix whose
rows represent the data points. The running time is potentially exponentially
smaller than $N$, the number of data points to be clustered that the relational
database represents.
Few relational algorithms are known and this paper offers techniques for
designing relational algorithms as well as characterizing their limitations. We
show that given two data points as cluster centers, if we cluster points
according to their closest centers, it is NP-Hard to approximate the number of
points in the clusters on a general relational input. This is trivial for
conventional data inputs and this result exemplifies that standard algorithmic
techniques may not be directly applied when designing an efficient relational
algorithm. This paper then introduces a new method that leverages rejection
sampling and the $k$-means++ algorithm to construct an O(1)-approximate k-means
solution.
- Abstract(参考訳): 本稿では,関係アルゴリズムモデルにおいて効率的なk平均近似アルゴリズムを提案する。
これは、結合を実行せずに関係データベース上で直接動作し、行がデータポイントを表す行列に変換するアルゴリズムである。
実行時間は、リレーショナルデータベースが表現するデータポイントの数である$n$よりも指数関数的に小さい可能性がある。
関係アルゴリズムについてはほとんど知られておらず,本論文では,関係アルゴリズムの設計手法と,その限界を特徴付ける手法について述べる。
クラスタセンタとして2つのデータポイントが与えられた場合、最も近いセンタに従ってポイントをクラスタする場合、一般的なリレーショナル入力でクラスタ内のポイント数を近似することはnp困難である。
これは従来のデータ入力では自明であり、この結果は、効率的な関係アルゴリズムを設計する際に標準アルゴリズム技術が直接適用されないことを示す。
そこで本稿では,拒絶サンプリングと$k$-means++アルゴリズムを用いてo(1)近似k-means解を構築する新しい手法を提案する。
関連論文リスト
- A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Linear time Evidence Accumulation Clustering with KMeans [0.0]
この研究は、平均的なリンククラスタリングの振る舞いを模倣するトリックを記述する。
分割の密度を効率よく計算する方法を見つけ、二次的な複雑さから線形的な複雑さへのコストを削減した。
k平均結果は、計算コストを低く保ちながら、NMIの観点からは、最先端の技術に匹敵する。
論文 参考訳(メタデータ) (2023-11-15T14:12:59Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - An enhanced method of initial cluster center selection for K-means
algorithm [0.0]
K-meansアルゴリズムの初期クラスタ選択を改善するための新しい手法を提案する。
Convex Hullアルゴリズムは、最初の2つのセントロイドの計算を容易にし、残りの2つは、以前選択された中心からの距離に応じて選択される。
We obtained only 7.33%, 7.90%, and 0% clustering error in Iris, Letter, and Ruspini data。
論文 参考訳(メタデータ) (2022-10-18T00:58:50Z) - Careful seeding for the k-medoids algorithm with incremental k++ cluster
construction [4.981260380070016]
k-medoidsアルゴリズム(INCKM)が最近提案され、この欠点を克服した。
本稿では,クラスタ数を動的に増加させる新しいk-medoidsアルゴリズム(INCKPP)を提案する。
提案アルゴリズムは,改良されたk-メロイドアルゴリズムのパラメータ選択問題を克服し,クラスタリング性能を向上し,不均衡なデータセットをうまく処理することができる。
論文 参考訳(メタデータ) (2022-07-06T02:25:35Z) - ck-means, a novel unsupervised learning method that combines fuzzy and
crispy clustering methods to extract intersecting data [1.827510863075184]
本稿では,2つの特徴以上の共通点を共有するデータをクラスタリングする手法を提案する。
この手法の主な考え方は、ファジィ C-Means (FCM) アルゴリズムを用いてファジィクラスタを生成することである。
このアルゴリズムはまた、シルエット指数(SI)によって与えられるクラスタの一貫性に従って、FCMとk平均アルゴリズムのための最適なクラスタ数を見つけることができる。
論文 参考訳(メタデータ) (2022-06-17T19:29:50Z) - Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。
クエリを少なくすることで、問題の解決が容易になる。
論文 参考訳(メタデータ) (2021-06-04T02:32:26Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - Clustering of Big Data with Mixed Features [3.3504365823045044]
我々は混合型の大規模データのための新しいクラスタリングアルゴリズムを開発した。
このアルゴリズムは、比較的低い密度値の外れ値とクラスターを検出することができる。
本研究では,本アルゴリズムが実際に有効であることを示す実験結果を示す。
論文 参考訳(メタデータ) (2020-11-11T19:54:38Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。