Fugu-MT 論文翻訳(概要): A sampling-based approach for efficient clustering in large datasets

論文の概要: A sampling-based approach for efficient clustering in large datasets

arxiv url: http://arxiv.org/abs/2112.14793v1
Date: Wed, 29 Dec 2021 19:15:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-03 14:11:13.183036
Title: A sampling-based approach for efficient clustering in large datasets
Title（参考訳）: サンプリングに基づく大規模データセットの効率的なクラスタリング
Authors: Georgios Exarchakis, Omar Oubari, Gregor Lenz
Abstract要約: 本稿では,多数のクラスタを持つ高次元データに対して,簡便かつ効率的なクラスタリング手法を提案する。私たちのコントリビューションは、データポイントとクラスタの完全な比較を必要としないため、k-meansよりもはるかに効率的です。
参考スコア（独自算出の注目度）: 0.8952229340927184
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a simple and efficient clustering method for high-dimensional data with a large number of clusters. Our algorithm achieves high-performance by evaluating distances of datapoints with a subset of the cluster centres. Our contribution is substantially more efficient than k-means as it does not require an all to all comparison of data points and clusters. We show that the optimal solutions of our approximation are the same as in the exact solution. However, our approach is considerably more efficient at extracting these clusters compared to the state-of-the-art. We compare our approximation with the exact k-means and alternative approximation approaches on a series of standardised clustering tasks. For the evaluation, we consider the algorithmic complexity, including number of operations to convergence, and the stability of the results.
Abstract（参考訳）: 本稿では,クラスタ数が多い高次元データに対して,簡便で効率的なクラスタリング手法を提案する。このアルゴリズムは、クラスタセンタのサブセットとデータポイントの距離を評価することで、高性能を実現する。当社のコントリビューションは,データポイントとクラスタのすべての比較を必要とせず,k-meansよりもはるかに効率的です。近似の最適解は、正確な解と同じであることを示す。しかし,本手法は,最先端技術と比較して,これらのクラスタを抽出する上で極めて効率的である。我々は、一連の標準化クラスタリングタスクにおける正確なk平均および代替近似手法と比較する。評価のために,収束に対する演算数や結果の安定性など,アルゴリズムの複雑さを考察する。

関連論文リスト

CAS Condensed and Accelerated Silhouette: An Efficient Method for Determining the Optimal K in K-Means Clustering [0.0]
本稿では,クラスタリングにおけるkの最適値を選択するための戦略を提案する。複雑なデータ環境におけるクラスタリング精度と計算効率のバランスを達成することに焦点を当てている。提案手法は,高次元データセット上での実行時間を最大99%高速化する。
論文参考訳（メタデータ） (2025-07-11T05:03:16Z)
K*-Means: A Parameter-free Clustering Algorithm [55.20132267309382]
k*-meansは、kや他のパラメータをセットする必要がない新しいクラスタリングアルゴリズムである。最小記述長の原理を用いて、クラスタの分割とマージによって最適なクラスタ数k*を自動的に決定する。 k*-平均が収束することが保証されることを証明し、kが未知のシナリオにおいて既存のメソッドよりも著しく優れていることを実験的に証明する。
論文参考訳（メタデータ） (2025-05-17T08:41:07Z)
Clust-Splitter $-$ an Efficient Nonsmooth Optimization-Based Algorithm for Clustering Large Datasets [0.0]
我々は,非滑らかな最適化に基づく効率的なアルゴリズムであるClust-Splitterを導入し,最小2乗のクラスタリング問題を解く。我々は,多数の属性と多数のデータポイントを特徴とする実世界のデータセット上でClust-Splitterを評価する。
論文参考訳（メタデータ） (2025-05-07T13:13:46Z)
Estimating the Optimal Number of Clusters in Categorical Data Clustering by Silhouette Coefficient [0.5939858158928473]
本稿では,分類データクラスタリングにおける最適kを推定するアルゴリズムk-SCCを提案する。 k-SCCの性能を比較するために, 合成データセットと実データセットの比較実験を行った。
論文参考訳（メタデータ） (2025-01-26T14:29:11Z)
A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文参考訳（メタデータ） (2023-12-17T04:41:07Z)
Comparative Analysis of Optimization Strategies for K-means Clustering in Big Data Contexts: A Review [0.3069335774032178]
K-meansはクラスタリングアルゴリズムとして広く使用されているが、大規模なデータセットを扱う場合、スケーラビリティの問題に悩まされる可能性がある。本稿では、並列化、近似、サンプリング方法など、これらの問題を克服するための様々なアプローチについて検討する。
論文参考訳（メタデータ） (2023-10-15T12:35:27Z)
Superclustering by finding statistically significant separable groups of optimal gaussian clusters [0.0]
本稿では,BIC基準の観点から,最適なデータセットをグループ化することで,データセットをクラスタリングするアルゴリズムを提案する。このアルゴリズムの重要な利点は、既に訓練済みのクラスタに基づいて、新しいデータの正しいスーパークラスタを予測する能力である。
論文参考訳（メタデータ） (2023-09-05T23:49:46Z)
Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文参考訳（メタデータ） (2023-05-12T03:01:41Z)
Sketch-and-solve approaches to k-means clustering by semidefinite programming [14.930208990741132]
我々は,k-meansクラスタリングのPeng-Wei半定緩和を高速化するためのスケッチ・アンド・ソルジ手法を提案する。データが適切に分離された場合、k平均の最適なクラスタリングを特定する。そうでなければ、我々のアプローチは最適k-平均値に高信頼な下界を与える。
論文参考訳（メタデータ） (2022-11-28T19:51:30Z)
Gradient Based Clustering [72.15857783681658]
本稿では,クラスタリングの品質を計測するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。アプローチは反復的な2段階の手順(クラスタ割り当てとクラスタセンターのアップデートの代替)であり、幅広い機能に適用できる。
論文参考訳（メタデータ） (2022-02-01T19:31:15Z)
Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。 RTKMは他の方法と競合することを示す。
論文参考訳（メタデータ） (2021-08-16T15:49:40Z)
Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。 DPPは部分集合内の中心点の多様性を好んでいる。 DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文参考訳（メタデータ） (2021-02-07T23:48:24Z)
Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文参考訳（メタデータ） (2020-10-22T15:58:35Z)
Too Much Information Kills Information: A Clustering Perspective [6.375668163098171]
分散に基づくk-クラスタリングタスクに対して,k-平均クラスタリング(k-means clustering)が広く知られていることを含む,単純かつ斬新なアプローチを提案する。提案手法は、与えられたデータセットからサンプリングサブセットを選択し、サブセット内のデータ情報のみに基づいて決定する。ある仮定では、結果のクラスタリングは、高い確率で分散に基づく目的の最適度を推定するのに十分である。
論文参考訳（メタデータ） (2020-09-16T01:54:26Z)
Point-Set Kernel Clustering [11.093960688450602]
本稿では,オブジェクトとオブジェクトの集合との類似性を計算する,ポイントセットカーネルと呼ばれる新しい類似度尺度を提案する。新たなクラスタリング手法は,大規模データセットを扱えるように,効率的かつ効率的であることを示す。
論文参考訳（メタデータ） (2020-02-14T00:00:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。