論文の概要: Superior Parallel Big Data Clustering through Competitive Stochastic Sample Size Optimization in Big-means
- arxiv url: http://arxiv.org/abs/2403.18766v1
- Date: Wed, 27 Mar 2024 17:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 15:59:48.020257
- Title: Superior Parallel Big Data Clustering through Competitive Stochastic Sample Size Optimization in Big-means
- Title(参考訳): 競合確率的サンプルサイズ最適化によるビッグデータクラスタリング
- Authors: Rustam Mussabayev, Ravil Mussabayev,
- Abstract要約: 本稿では,従来のBig-means手法の進歩である,新しいK-meansクラスタリングアルゴリズムを提案する。
提案手法は並列処理,サンプリング,競合最適化を効率よく統合し,ビッグデータアプリケーション用に設計されたスケーラブルな変種を作成する。
- 参考スコア(独自算出の注目度): 0.3069335774032178
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces a novel K-means clustering algorithm, an advancement on the conventional Big-means methodology. The proposed method efficiently integrates parallel processing, stochastic sampling, and competitive optimization to create a scalable variant designed for big data applications. It addresses scalability and computation time challenges typically faced with traditional techniques. The algorithm adjusts sample sizes dynamically for each worker during execution, optimizing performance. Data from these sample sizes are continually analyzed, facilitating the identification of the most efficient configuration. By incorporating a competitive element among workers using different sample sizes, efficiency within the Big-means algorithm is further stimulated. In essence, the algorithm balances computational time and clustering quality by employing a stochastic, competitive sampling strategy in a parallel computing setting.
- Abstract(参考訳): 本稿では,従来のBig-means手法の進歩である,新しいK-meansクラスタリングアルゴリズムを提案する。
提案手法は並列処理,確率的サンプリング,競合最適化を効率よく統合し,ビッグデータアプリケーション用に設計されたスケーラブルな変種を作成する。
従来の技術で直面するスケーラビリティと計算時間の課題に対処する。
アルゴリズムは、実行中の各ワーカーのサンプルサイズを動的に調整し、パフォーマンスを最適化する。
これらのサンプルサイズからのデータは継続的に分析され、最も効率的な構成の識別が容易になる。
異なるサンプルサイズを用いて作業者間での競合要素を組み込むことで、Big-meansアルゴリズムの効率をさらに刺激する。
本質的に、アルゴリズムは並列コンピューティング環境で確率的かつ競合的なサンプリング戦略を用いることで、計算時間とクラスタリング品質のバランスをとる。
関連論文リスト
- Scaling LLM Inference with Optimized Sample Compute Allocation [56.524278187351925]
我々は、異なる推論構成の最適な混合を見つけるアルゴリズムであるOSCAを提案する。
実験の結果,学習した混合アロケーションでは,最高の単一構成よりも精度がよいことがわかった。
OSCAはシングルターンタスク以外のエージェント処理にも有効であることが示されており、デフォルト設定よりも3倍少ない計算でSWE-Benchの精度が向上している。
論文 参考訳(メタデータ) (2024-10-29T19:17:55Z) - Robust Clustering on High-Dimensional Data with Stochastic Quantization [0.0]
本稿では,従来のベクトル量子化アルゴリズムの限界に対処する。
量子化(SQ)を高次元計算の代替として検討する。
論文 参考訳(メタデータ) (2024-09-03T17:13:55Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Comparative Analysis of Optimization Strategies for K-means Clustering in Big Data Contexts: A Review [0.3069335774032178]
K-meansはクラスタリングアルゴリズムとして広く使用されているが、大規模なデータセットを扱う場合、スケーラビリティの問題に悩まされる可能性がある。
本稿では、並列化、近似、サンプリング方法など、これらの問題を克服するための様々なアプローチについて検討する。
論文 参考訳(メタデータ) (2023-10-15T12:35:27Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - Randomized Dimension Reduction with Statistical Guarantees [0.27195102129095]
この論文は、高速な実行と効率的なデータ利用のためのアルゴリズムをいくつか探求している。
一般化と分散性を向上する様々なデータ拡張を組み込んだ学習アルゴリズムに着目する。
具体的には、第4章では、データ拡張整合正則化のための複雑性分析のサンプルを提示する。
論文 参考訳(メタデータ) (2023-10-03T02:01:39Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Let the Flows Tell: Solving Graph Combinatorial Optimization Problems
with GFlowNets [86.43523688236077]
組合せ最適化(CO)問題はしばしばNPハードであり、正確なアルゴリズムには及ばない。
GFlowNetsは、複合非正規化密度を逐次サンプリングする強力な機械として登場した。
本稿では,異なる問題に対してマルコフ決定プロセス(MDP)を設計し,条件付きGFlowNetを学習して解空間からサンプルを作成することを提案する。
論文 参考訳(メタデータ) (2023-05-26T15:13:09Z) - A sampling-based approach for efficient clustering in large datasets [0.8952229340927184]
本稿では,多数のクラスタを持つ高次元データに対して,簡便かつ効率的なクラスタリング手法を提案する。
私たちのコントリビューションは、データポイントとクラスタの完全な比較を必要としないため、k-meansよりもはるかに効率的です。
論文 参考訳(メタデータ) (2021-12-29T19:15:20Z) - Stochastic batch size for adaptive regularization in deep network
optimization [63.68104397173262]
ディープラーニングフレームワークにおける機械学習問題に適用可能な適応正規化を取り入れた一階最適化アルゴリズムを提案する。
一般的なベンチマークデータセットに適用した従来のネットワークモデルに基づく画像分類タスクを用いて,提案アルゴリズムの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2020-04-14T07:54:53Z) - Ensemble Slice Sampling: Parallel, black-box and gradient-free inference
for correlated & multimodal distributions [0.0]
スライスサンプリング (Slice Sampling) は、最小ハンドチューニングで目標分布の特性に適応するマルコフ連鎖モンテカルロアルゴリズムとして登場した。
本稿では,初期長さ尺度を適応的に調整することで,そのような困難を回避できるアルゴリズムであるEnsemble Slice Sampling(ESS)を紹介する。
これらのアフィン不変アルゴリズムは簡単に構築でき、手作業で調整する必要がなく、並列計算環境で容易に実装できる。
論文 参考訳(メタデータ) (2020-02-14T19:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。