Fugu-MT 論文翻訳(概要): Optimizing K-means for Big Data: A Comparative Study

論文の概要: Optimizing K-means for Big Data: A Comparative Study

arxiv url: http://arxiv.org/abs/2310.09819v2
Date: Thu, 7 Dec 2023 11:11:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 18:26:53.951256
Title: Optimizing K-means for Big Data: A Comparative Study
Title（参考訳）: ビッグデータのためのK平均の最適化:比較研究
Authors: Ravil Mussabayev, Rustam Mussabayev
Abstract要約: K-meansはクラスタリングアルゴリズムとして広く使用されているが、大規模なデータセットを扱う場合、スケーラビリティの問題に悩まされる可能性がある。本稿では、並列化、近似、サンプリング方法など、これらの問題を克服するための様々なアプローチについて検討する。
参考スコア（独自算出の注目度）: 0.3626013617212667
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper presents a comparative analysis of different optimization techniques for the K-means algorithm in the context of big data. K-means is a widely used clustering algorithm, but it can suffer from scalability issues when dealing with large datasets. The paper explores different approaches to overcome these issues, including parallelization, approximation, and sampling methods. The authors evaluate the performance of these techniques on various benchmark datasets and compare them in terms of speed, quality of clustering, and scalability according to the LIMA dominance criterion. The results show that different techniques are more suitable for different types of datasets and provide insights into the trade-offs between speed and accuracy in K-means clustering for big data. Overall, the paper offers a comprehensive guide for practitioners and researchers on how to optimize K-means for big data applications.
Abstract（参考訳）: 本稿では,ビッグデータの文脈におけるk-meansアルゴリズムの最適化手法の比較分析を行う。 k-meansは広く使用されているクラスタリングアルゴリズムだが、大規模なデータセットを扱う場合、スケーラビリティの問題に苦しむ可能性がある。この論文は、並列化、近似、サンプリング法など、これらの問題を克服するための様々なアプローチを探求する。筆者らは,様々なベンチマークデータセットにおけるこれらの手法の性能を評価し,lima支配基準に従って,速度,クラスタリングの質,スケーラビリティの観点から比較した。その結果、異なる手法がデータセットの異なるタイプに適していることが示され、ビッグデータのK平均クラスタリングにおける速度と精度のトレードオフに関する洞察を提供する。全体として、この論文は、ビッグデータアプリケーションにK平均をどのように最適化するかについて、実践者や研究者に包括的なガイドを提供する。

関連論文リスト

An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文参考訳（メタデータ） (2025-07-18T10:07:42Z)
CAS Condensed and Accelerated Silhouette: An Efficient Method for Determining the Optimal K in K-Means Clustering [0.0]
本稿では,クラスタリングにおけるkの最適値を選択するための戦略を提案する。複雑なデータ環境におけるクラスタリング精度と計算効率のバランスを達成することに焦点を当てている。提案手法は,高次元データセット上での実行時間を最大99%高速化する。
論文参考訳（メタデータ） (2025-07-11T05:03:16Z)
K*-Means: A Parameter-free Clustering Algorithm [55.20132267309382]
k*-meansは、kや他のパラメータをセットする必要がない新しいクラスタリングアルゴリズムである。最小記述長の原理を用いて、クラスタの分割とマージによって最適なクラスタ数k*を自動的に決定する。 k*-平均が収束することが保証されることを証明し、kが未知のシナリオにおいて既存のメソッドよりも著しく優れていることを実験的に証明する。
論文参考訳（メタデータ） (2025-05-17T08:41:07Z)
Unsupervised Learning: Comparative Analysis of Clustering Techniques on High-Dimensional Data [0.29465623430708915]
本稿では,高次元データセット上でのK平均,DBSCAN,スペクトルクラスタリングを包括的に解析する。本稿では,複数次元削減技術を用いたクラスタリング性能の評価を行う新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-29T20:38:04Z)
Boosting K-means for Big Data by Fusing Data Streaming with Global Optimization [0.3069335774032178]
K平均クラスタリングはデータマイニングの基盤であるが、その効率は大量のデータセットに直面すると悪化する。可変近傍探索(VNS)メタヒューリスティックを利用して,K平均クラスタリングをビッグデータに最適化する新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-18T15:43:34Z)
Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-24T08:59:51Z)
Superior Parallel Big Data Clustering through Competitive Stochastic Sample Size Optimization in Big-means [0.3069335774032178]
本稿では,従来のBig-means手法の進歩である,新しいK-meansクラスタリングアルゴリズムを提案する。提案手法は並列処理,サンプリング,競合最適化を効率よく統合し,ビッグデータアプリケーション用に設計されたスケーラブルな変種を作成する。
論文参考訳（メタデータ） (2024-03-27T17:05:03Z)
A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文参考訳（メタデータ） (2023-12-17T04:41:07Z)
Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文参考訳（メタデータ） (2023-07-26T16:19:19Z)
Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文参考訳（メタデータ） (2023-05-12T03:01:41Z)
A One-shot Framework for Distributed Clustered Learning in Heterogeneous Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文参考訳（メタデータ） (2022-09-22T09:04:10Z)
How to Use K-means for Big Data Clustering? [2.1165011830664677]
K-meansはEuclidean Minimum Sum-of-Squares Clustering (MSSC)モデルの下で最もシンプルで広く使われているアルゴリズムである。ビッグデータクラスタリングにK-means++アルゴリズムとK-means++アルゴリズムを用いる並列方式を提案する。
論文参考訳（メタデータ） (2022-04-14T08:18:01Z)
A sampling-based approach for efficient clustering in large datasets [0.8952229340927184]
本稿では,多数のクラスタを持つ高次元データに対して,簡便かつ効率的なクラスタリング手法を提案する。私たちのコントリビューションは、データポイントとクラスタの完全な比較を必要としないため、k-meansよりもはるかに効率的です。
論文参考訳（メタデータ） (2021-12-29T19:15:20Z)
Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。 RTKMは他の方法と競合することを示す。
論文参考訳（メタデータ） (2021-08-16T15:49:40Z)
Too Much Information Kills Information: A Clustering Perspective [6.375668163098171]
分散に基づくk-クラスタリングタスクに対して,k-平均クラスタリング(k-means clustering)が広く知られていることを含む,単純かつ斬新なアプローチを提案する。提案手法は、与えられたデータセットからサンプリングサブセットを選択し、サブセット内のデータ情報のみに基づいて決定する。ある仮定では、結果のクラスタリングは、高い確率で分散に基づく目的の最適度を推定するのに十分である。
論文参考訳（メタデータ） (2020-09-16T01:54:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。