論文の概要: No More Than 6ft Apart: Robust K-Means via Radius Upper Bounds
- arxiv url: http://arxiv.org/abs/2203.02502v1
- Date: Fri, 4 Mar 2022 18:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 14:31:30.834647
- Title: No More Than 6ft Apart: Robust K-Means via Radius Upper Bounds
- Title(参考訳): 6フィート以上離れない - 半径上限を経由するロバストなk平均
- Authors: Ahmed Imtiaz Humayun, Randall Balestriero, Anastasios Kyrillidis,
Richard Baraniuk
- Abstract要約: k-means、k-medoids、k-centersといったCentroidベースのクラスタリング手法は、探索データ解析においてゴーツーツールとして強く応用されている。
多くの場合、これらの手法はデータセットの視覚化や要約のためにデータ多様体の代表的なセントロイドを得るのに使用される。
本研究では, 遠心円周波によって形成されるクラスターに最大半径制約$r$を導入することにより, このようなシナリオを緩和することを提案する。
- 参考スコア(独自算出の注目度): 17.226362076527764
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Centroid based clustering methods such as k-means, k-medoids and k-centers
are heavily applied as a go-to tool in exploratory data analysis. In many
cases, those methods are used to obtain representative centroids of the data
manifold for visualization or summarization of a dataset. Real world datasets
often contain inherent abnormalities, e.g., repeated samples and sampling bias,
that manifest imbalanced clustering. We propose to remedy such a scenario by
introducing a maximal radius constraint $r$ on the clusters formed by the
centroids, i.e., samples from the same cluster should not be more than $2r$
apart in terms of $\ell_2$ distance. We achieve this constraint by solving a
semi-definite program, followed by a linear assignment problem with quadratic
constraints. Through qualitative results, we show that our proposed method is
robust towards dataset imbalances and sampling artifacts. To the best of our
knowledge, ours is the first constrained k-means clustering method with hard
radius constraints. Codes at https://bit.ly/kmeans-constrained
- Abstract(参考訳): k-means,k-medoids,k-centersなどのセンタロイドベースのクラスタリング手法は,探索的データ解析におけるgo-toツールとして広く適用されている。
多くの場合、これらの手法はデータセットの視覚化や要約のためにデータ多様体の代表的なセントロイドを得るために用いられる。
実世界のデータセットは、しばしば不均衡なクラスタリングを示す繰り返しサンプルやサンプリングバイアスのような固有の異常を含む。
我々は,このシナリオを,センチロイドによって形成されたクラスタ上に最大半径制約$r$を導入し,例えば,同じクラスタからのサンプルが$\ell_2$距離で2r$以上離れるべきではないことを提案する。
この制約は半定値プログラムを解き、次に2次制約を持つ線形代入問題を解く。
定性的な結果から,提案手法はデータセットの不均衡やアーティファクトのサンプリングに対して堅牢であることを示す。
我々の知る限りでは、我々の手法はハード半径制約を持つ最初の制約付きk平均クラスタリング手法である。
コード: https://bit.ly/kmeans-constrained
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - A provable initialization and robust clustering method for general mixture models [6.806940901668607]
クラスタリングは、異種データの存在下での統計機械学習の基本的なツールである。
最新の結果は、ガウス以下の誤差を伴うセントロイドの周りにデータが分散されている場合に、最適なラベルの誤りを保証することに焦点が当てられている。
論文 参考訳(メタデータ) (2024-01-10T22:56:44Z) - Approximating a RUM from Distributions on k-Slates [88.32814292632675]
与えられた分布を平均で最もよく近似するRUMを求める一般化時間アルゴリズムを求める。
我々の理論的結果は、実世界のデータセットに効果的でスケール可能なものを得るという、実践的な結果も得られます。
論文 参考訳(メタデータ) (2023-05-22T17:43:34Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Sketch-and-solve approaches to k-means clustering by semidefinite
programming [14.930208990741132]
我々は,k-meansクラスタリングのPeng-Wei半定緩和を高速化するためのスケッチ・アンド・ソルジ手法を提案する。
データが適切に分離された場合、k平均の最適なクラスタリングを特定する。
そうでなければ、我々のアプローチは最適k-平均値に高信頼な下界を与える。
論文 参考訳(メタデータ) (2022-11-28T19:51:30Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Distribution free optimality intervals for clustering [1.7513645771137178]
データ$mathcalD$と、これらのデータのパーティション$mathcalC$を$K$クラスタにすると、得られたクラスタがデータに対して正しい、あるいは有意義なものであると言えますか?
本稿では,K-means歪みなどの損失関数に関して,クラスタリング$mathcalC$が有意義であると考えられるパラダイムを紹介した。
論文 参考訳(メタデータ) (2021-07-30T06:13:56Z) - (k, l)-Medians Clustering of Trajectories Using Continuous Dynamic Time
Warping [57.316437798033974]
本研究では,トラジェクトリの集中型クラスタリングの問題について考察する。
我々はDTWの連続バージョンを距離測定として使用することを提案し、これをCDTW(Continuous dynamic time warping)と呼ぶ。
一連の軌道から中心を計算し、その後反復的に改善する実践的な方法を示す。
論文 参考訳(メタデータ) (2020-12-01T13:17:27Z) - Quantizing Multiple Sources to a Common Cluster Center: An Asymptotic
Analysis [14.048989759890475]
我々は、$Ld$次元のサンプルを$d$次元のベクトルのデータセットから$Ld$次元のクラスタセンターに結合することで得られる$Ld$次元のサンプルを定量化することを検討する。
クラスタセンターの数が多いレジームにおける平均的性能歪みの式を求める。
元の(ノイズのない)データセットへの忠実さに関して、我々のクラスタリングアプローチは、$Ld$次元ノイズ観測ベクトルを$Ld$次元中心に量子化することに依拠する単純アプローチよりも優れています。
論文 参考訳(メタデータ) (2020-10-23T17:14:28Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。