論文の概要: Big-means: Less is More for K-means Clustering
- arxiv url: http://arxiv.org/abs/2204.07485v1
- Date: Thu, 14 Apr 2022 08:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 03:49:22.437450
- Title: Big-means: Less is More for K-means Clustering
- Title(参考訳): big-means: k-meansクラスタリングのためのless
- Authors: Rustam Mussabayev, Nenad Mladenovic, Bassem Jarboui, Ravil Mussabayev
- Abstract要約: K平均クラスタリングは、データマイニングにおいて重要な役割を果たす。
我々は、"less is more"とMSSC分解アプローチを用いて、より高速で正確なビッグデータクラスタリングのために、通常のK平均に基づいて構築された新しい手法を提案する。
我々の実験では、MSSCの最近の最先端アルゴリズムとソリューションの質において、性能が優れています。
- 参考スコア(独自算出の注目度): 0.1529342790344802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: K-means clustering plays a vital role in data mining. However, its
performance drastically drops when applied to huge amounts of data. We propose
a new heuristic that is built on the basis of regular K-means for faster and
more accurate big data clustering using the "less is more" and MSSC
decomposition approaches. The main advantage of the proposed algorithm is that
it naturally turns the K-means local search into global one through the process
of decomposition of the MSSC problem. On one hand, decomposition of the MSSC
problem into smaller subproblems reduces the computational complexity and
allows for their parallel processing. On the other hand, the MSSC decomposition
provides a new method for the natural data-driven shaking of the incumbent
solution while introducing a new neighborhood structure for the solution of the
MSSC problem. This leads to a new heuristic that improves K-means in big data
conditions. The scalability of the algorithm to big data can be easily adjusted
by choosing the appropriate number of subproblems and their size. The proposed
algorithm is both scalable and accurate. In our experiments it outperforms all
recent state-of-the-art algorithms for the MSSC in terms of time as well as the
solution quality.
- Abstract(参考訳): K平均クラスタリングはデータマイニングにおいて重要な役割を果たす。
しかし、大量のデータに適用すると、その性能は劇的に低下する。
我々は,"less is more" と mssc の分解アプローチを用いて,より高速かつ高精度なビッグデータクラスタリングを実現するために,正規の k-means に基づいて構築した新しいヒューリスティックを提案する。
提案アルゴリズムの主な利点は、K-means局所探索をMSSC問題の分解過程を通じて、自然にグローバル検索に変換することである。
一方、MSSC問題をより小さなサブプロブレムに分解すると計算複雑性が減少し、並列処理が可能となる。
一方、MSSC分解は、MSSC問題の解に対する新しい近傍構造を導入しつつ、既存の解の自然なデータ駆動的揺らぎの新しい方法を提供する。
これにより、ビッグデータ条件におけるK平均を改善する新たなヒューリスティックが生まれる。
アルゴリズムのビッグデータへの拡張性は、適切なサブプロブレム数とそのサイズを選択することで容易に調整できる。
提案アルゴリズムはスケーラブルかつ高精度である。
我々の実験では、MSSCの最近の最先端アルゴリズムとソリューションの質において、性能が優れています。
関連論文リスト
- Boosting K-means for Big Data by Fusing Data Streaming with Global Optimization [0.3069335774032178]
K平均クラスタリングはデータマイニングの基盤であるが、その効率は大量のデータセットに直面すると悪化する。
可変近傍探索(VNS)メタヒューリスティックを利用して,K平均クラスタリングをビッグデータに最適化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-18T15:43:34Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - A cutting plane algorithm for globally solving low dimensional k-means
clustering problems [4.5594982923247995]
我々は、低次元データを持つインスタンスのk-means問題を考え、これを構造的凹面割り当て問題として定式化する。
これにより、低次元構造を利用して、妥当な時間で大域的最適性に問題を解くことができる。
本論文は,グローバル最適化理論の手法を組み合わせて手順を高速化し,数値的な結果を提供する。
論文 参考訳(メタデータ) (2024-02-21T07:55:33Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - An Exact Algorithm for Semi-supervised Minimum Sum-of-Squares Clustering [0.5801044612920815]
半教師付きMSSCのための分岐結合アルゴリズムを提案する。
背景知識はペアワイズ・マスタリンクと結びつかない制約として組み込まれている。
提案したグローバル最適化アルゴリズムは,実世界のインスタンスを最大800個のデータポイントまで効率的に解決する。
論文 参考訳(メタデータ) (2021-11-30T17:08:53Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Clustering of Big Data with Mixed Features [3.3504365823045044]
我々は混合型の大規模データのための新しいクラスタリングアルゴリズムを開発した。
このアルゴリズムは、比較的低い密度値の外れ値とクラスターを検出することができる。
本研究では,本アルゴリズムが実際に有効であることを示す実験結果を示す。
論文 参考訳(メタデータ) (2020-11-11T19:54:38Z) - Too Much Information Kills Information: A Clustering Perspective [6.375668163098171]
分散に基づくk-クラスタリングタスクに対して,k-平均クラスタリング(k-means clustering)が広く知られていることを含む,単純かつ斬新なアプローチを提案する。
提案手法は、与えられたデータセットからサンプリングサブセットを選択し、サブセット内のデータ情報のみに基づいて決定する。
ある仮定では、結果のクラスタリングは、高い確率で分散に基づく目的の最適度を推定するのに十分である。
論文 参考訳(メタデータ) (2020-09-16T01:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。