Fugu-MT 論文翻訳(概要): BanditPAM++: Faster $k$-medoids Clustering

論文の概要: BanditPAM++: Faster $k$-medoids Clustering

arxiv url: http://arxiv.org/abs/2310.18844v1
Date: Sat, 28 Oct 2023 23:11:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 16:04:01.721068
Title: BanditPAM++: Faster $k$-medoids Clustering
Title（参考訳）: BanditPAM++: $k$-medoidsクラスタリングの高速化
Authors: Mo Tiwari, Ryan Kang, Donghyun Lee, Sebastian Thrun, Chris Piech, Ilan Shomorony, Martin Jinye Zhang
Abstract要約: k$-medoidsクラスタリングでは、クラスタセンターは実際のデータポイントでなければならない。最近の研究では、最先端の複雑さとクラスタリング精度を備えたランダム化$k$-medoidsアルゴリズムであるBanditPAMが提案されている。本稿では,BanditPAMを2つのアルゴリズム改良により高速化するBanditPAM++について述べる。
参考スコア（独自算出の注目度）: 16.42816643809205
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Clustering is a fundamental task in data science with wide-ranging applications. In $k$-medoids clustering, cluster centers must be actual datapoints and arbitrary distance metrics may be used; these features allow for greater interpretability of the cluster centers and the clustering of exotic objects in $k$-medoids clustering, respectively. $k$-medoids clustering has recently grown in popularity due to the discovery of more efficient $k$-medoids algorithms. In particular, recent research has proposed BanditPAM, a randomized $k$-medoids algorithm with state-of-the-art complexity and clustering accuracy. In this paper, we present BanditPAM++, which accelerates BanditPAM via two algorithmic improvements, and is $O(k)$ faster than BanditPAM in complexity and substantially faster than BanditPAM in wall-clock runtime. First, we demonstrate that BanditPAM has a special structure that allows the reuse of clustering information $\textit{within}$ each iteration. Second, we demonstrate that BanditPAM has additional structure that permits the reuse of information $\textit{across}$ different iterations. These observations inspire our proposed algorithm, BanditPAM++, which returns the same clustering solutions as BanditPAM but often several times faster. For example, on the CIFAR10 dataset, BanditPAM++ returns the same results as BanditPAM but runs over 10$\times$ faster. Finally, we provide a high-performance C++ implementation of BanditPAM++, callable from Python and R, that may be of interest to practitioners at https://github.com/motiwari/BanditPAM. Auxiliary code to reproduce all of our experiments via a one-line script is available at https://github.com/ThrunGroup/BanditPAM_plusplus_experiments.
Abstract（参考訳）: クラスタリングは幅広いアプリケーションを扱うデータサイエンスにおける基本的なタスクである。 k$-medoidsクラスタリングでは、クラスタセンタは実際のデータポイントでなければならず、任意の距離メトリクスが使用できる。 $k$-medoidsクラスタリングは、より効率的な$k$-medoidsアルゴリズムの発見により、最近人気が高まっている。特に最近の研究では、最先端の複雑さとクラスタリング精度を備えたランダム化$k$-medoidsアルゴリズムであるBanditPAMが提案されている。本稿では,BanditPAMを2つのアルゴリズム改良により高速化するBanditPAM++を提案する。まず、BanditPAMはクラスタリング情報の再利用を可能にする特別な構造を持っていることを実証します。次に、banditpamには、$\textit{across}$の異なるイテレーションを再利用する追加の構造があることを実証する。これらの観測から提案したアルゴリズムであるBanditPAM++は、BanditPAMと同じクラスタリングソリューションを返すが、多くの場合は数倍高速である。例えば、CIFAR10データセットでは、BanditPAM++はBanditPAMと同じ結果を返すが、10$\times$高速に実行される。最後に、我々は、PythonとRから呼び出し可能なBanditPAM++の高性能なC++実装を提供しています。実験を1行のスクリプトで再現するための補助的なコードはhttps://github.com/ThrunGroup/BanditPAM_plus_experiments.comにある。

関連論文リスト

Generalization Performance of Ensemble Clustering: From Theory to Algorithm [57.176040163699554]
本稿では,アンサンブルクラスタリングにおける一般化誤差,過剰リスク,一貫性に着目した。有限クラスタリングに様々な重みを割り当てることで、経験的平均クラスタリングと期待値との誤差を最小化する。我々は、新しいアンサンブルクラスタリングアルゴリズムを開発するために、我々の理論をインスタンス化する。
論文参考訳（メタデータ） (2025-06-01T09:34:52Z)
Near Optimal Best Arm Identification for Clustered Bandits [10.146588539113614]
我々は、M$エージェントを$M$クラスタにグループ化し、各クラスタがバンドイト問題を解決する。本稿では,クラスタリング,ベストアーム識別(Cl-BAI),ベストアーム識別(BAI-Cl)の2つの新しいアルゴリズムを提案する。 Cl-BAIは、学習しているバンディット問題に基づいて最初のクラスタエージェントを2フェーズのアプローチで処理し、続いて各クラスタに最適なアームを特定する。 BAI-Clは、まず最適な腕を特定し、次にそれに従ってクラスタリングエージェントを識別することで、配列を反転させる。
論文参考訳（メタデータ） (2025-05-15T10:20:26Z)
Online Clustering with Bandit Information [5.024813922014978]
固定信頼設定の下で,マルチアーム・バンディット・フレームワークにおけるオンラインクラスタリングの問題点について検討する。本稿では,Average Tracking Bandit Online Clustering (ATBOC) という新しいアルゴリズムを導入する。 LUCBアルゴリズムにインスパイアされた、より効率的なLow and Upper Confidence BoundベースのBandit Online Clustering (LUCBBOC)を提案する。
論文参考訳（メタデータ） (2025-01-20T11:39:09Z)
Do you know what q-means? [50.045011844765185]
クラスタリングは、大規模なデータセットを分析する上で最も重要なツールの1つである。クラスタリングのための"$q$-means"アルゴリズムの改良版を提案する。また、$Obig(frack2varepsilon2(sqrtkd + log(Nd))big で実行される $varepsilon に対する "dequantized" アルゴリズムも提示する。
論文参考訳（メタデータ） (2023-08-18T17:52:12Z)
Revisiting Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [69.15976031704687]
IAC (Instance-Adaptive Clustering, インスタンス適応クラスタリング) を提案する。 IACは$ MathcalO(n, textpolylog(n) $の計算複雑性を維持しており、大規模問題に対してスケーラブルで実用的なものである。
論文参考訳（メタデータ） (2023-06-18T08:46:06Z)
GBMST: An Efficient Minimum Spanning Tree Clustering Based on Granular-Ball Computing [78.92205914422925]
多粒度グラニュラバルと最小スパンニングツリー(MST)を組み合わせたクラスタリングアルゴリズムを提案する。粒度が粗い粒状ボールを構築し,さらに粒状ボールとMSTを用いて「大規模優先度」に基づくクラスタリング手法を実装した。いくつかのデータセットの実験結果は、アルゴリズムの威力を示している。
論文参考訳（メタデータ） (2023-03-02T09:04:35Z)
Optimal Algorithms for Latent Bandits with Cluster Structure [50.44722775727619]
本稿では,複数のユーザが存在するクラスタ構造を持つ潜伏包帯問題と関連するマルチアーム包帯問題とを考察する。本稿では,潜伏クラスタ構造を利用して$widetildeO(sqrt(mathsfM+mathsfN)mathsfTの最小限の後悔を提供するLATTICEを提案する。
論文参考訳（メタデータ） (2023-01-17T17:49:04Z)
Faster Maximum Inner Product Search in High Dimensions [17.040520467777295]
最大内部製品探索(MIPS)は、リコメンデーションシステムなどの機械学習アプリケーションにおいて、ユビキタスなタスクである。複雑度が$d$に依存しない新しいランダム化MIPSアルゴリズムであるBanditMIPSを提案する。我々は、BanditMIPSが正しい答えを高い確率で返し、$d$を$O(sqrtd)$から$O(1)$に改善する理論的な保証を提供する。
論文参考訳（メタデータ） (2022-12-14T23:46:23Z)
Recovering Unbalanced Communities in the Stochastic Block Model With Application to Clustering with a Faulty Oracle [9.578056676899203]
オラクルブロックモデル(英: Oracle block model、SBM)は、ネットワークにおけるグラフクラスタリングやコミュニティ検出を研究するための基礎モデルである。我々は,SBMのコミュニティを様々な大きさのコミュニティで復元する,シンプルなSVDベースのアルゴリズムを提供する。
論文参考訳（メタデータ） (2022-02-17T08:51:19Z)
Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文参考訳（メタデータ） (2022-02-09T06:05:05Z)
Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。クエリを少なくすることで、問題の解決が容易になる。
論文参考訳（メタデータ） (2021-06-04T02:32:26Z)
Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。 A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文参考訳（メタデータ） (2021-04-14T18:15:27Z)
Fast and Eager k-Medoids Clustering: O(k) Runtime Improvement of the PAM, CLARA, and CLARANS Algorithms [0.0]
Partitioning Around Medoids (PAM) は非ユークリッドデータをクラスタリングするためのアルゴリズムである。本稿では,アルゴリズムの第2フェーズ(SWAP)でO(k)倍の高速化を実現するPAMの修正を提案する。 k=100,200の実データを用いた実験では,元のPAM SWAPアルゴリズムと比較して,それぞれ458倍のスピードアップを観測した。
論文参考訳（メタデータ） (2020-08-12T08:37:50Z)
BanditPAM: Almost Linear Time $k$-Medoids Clustering via Multi-Armed Bandits [16.1767275655842]
現在の$k$-medoidsクラスタリングアルゴリズム、例えば、PAM(Partitioning Around Medoids)は反復的であり、各イテレーションで$n$のデータセットサイズであり、大規模なデータセットでは極めて高価である。マルチアームバンディットの技法にインスパイアされたランダム化アルゴリズムであるBanditPAMを提案する。これは、PAMの繰り返しの複雑さを$O(n2)$から$O(n log n)$に減らし、実際に保持されるデータに対する仮定の下で、高い確率で同じ結果を返す。我々は、コーディングを含むいくつかの大規模な実世界のデータセットで実験的に結果を検証する。
論文参考訳（メタデータ） (2020-06-11T22:17:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。