論文の概要: Evolution of $K$-means solution landscapes with the addition of dataset
outliers and a robust clustering comparison measure for their analysis
- arxiv url: http://arxiv.org/abs/2306.14346v1
- Date: Sun, 25 Jun 2023 21:22:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 15:23:44.549450
- Title: Evolution of $K$-means solution landscapes with the addition of dataset
outliers and a robust clustering comparison measure for their analysis
- Title(参考訳): データセットの異常値とロバストクラスタリング比較尺度を付加したk$-meansソリューションランドスケープの進化
- Authors: Luke Dicks and David J. Wales
- Abstract要約: 我々は、データセットのアウトリージの増加の結果、K$-meansのソリューション空間の変化をマッピングするために、エネルギーランドスケープアプローチを使用します。
速度論的解析により、全てのケースにおいて、全体のファンネルは浅い局所的に燃やされた地域で構成されていることが明らかとなった。
本稿では,速度解析から得られた速度がクラスタリング類似性の新たな尺度となることを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The $K$-means algorithm remains one of the most widely-used clustering
methods due to its simplicity and general utility. The performance of $K$-means
depends upon location of minima low in cost function, amongst a potentially
vast number of solutions. Here, we use the energy landscape approach to map the
change in $K$-means solution space as a result of increasing dataset outliers
and show that the cost function surface becomes more funnelled. Kinetic
analysis reveals that in all cases the overall funnel is composed of shallow
locally-funnelled regions, each of which are separated by areas that do not
support any clustering solutions. These shallow regions correspond to different
types of clustering solution and their increasing number with outliers leads to
longer pathways within the funnel and a reduced correlation between accuracy
and cost function. Finally, we propose that the rates obtained from kinetic
analysis provide a novel measure of clustering similarity that incorporates
information about the paths between them. This measure is robust to outliers
and we illustrate the application to datasets containing multiple outliers.
- Abstract(参考訳): K$-meansアルゴリズムは、その単純さと汎用性から、最も広く使われているクラスタリング手法の1つである。
k$-meansのパフォーマンスは、潜在的に膨大な数のソリューションの中で、コストの少ないminimaの位置に依存する。
ここでは,dataset outlierの増加によるk$-meansソリューション空間の変化を,エネルギーランドスケープアプローチを用いてマッピングし,コスト関数表面がよりファンネル化していることを示す。
速度論的解析により、全ての場合において全体ファンネルは浅い局所燃料領域で構成されており、それぞれがクラスタリングソリューションをサポートしない領域によって分離されていることが明らかになった。
これらの浅い領域は、異なる種類のクラスタリングソリューションに対応し、異常値の増加は、ファンネル内の長い経路と精度とコスト関数の間の相関を減少させる。
最後に,運動解析から得られた速度は,それらの間の経路に関する情報を取り入れたクラスタリング類似性の新たな尺度を提供する。
この尺度は外れ値に対して堅牢であり、複数の外れ値を含むデータセットに適用例を示す。
関連論文リスト
- Distributional Reduction: Unifying Dimensionality Reduction and
Clustering with Gromov-Wasserstein Projection [50.51460159104604]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
伝統的に、これは次元還元法を用いて解釈可能な空間にデータを投影したり、意味のあるクラスタにポイントを整理する。
私たちは新しい視点 – 流通の視点 – を提供しています。
我々はクラスタリングと次元還元を分散還元と呼ばれる単一のフレームワークに統合する。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Are Easy Data Easy (for K-Means) [0.0]
本稿では、$k$-meansアルゴリズムの様々なブランドによって、適切に分離されたクラスタを復元する能力について検討する。
シード選択時に繰り返しサブサンプリングによって$k$-means++のバリエーションが提案される。
論文 参考訳(メタデータ) (2023-08-02T09:40:19Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data [0.0]
我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。
このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
論文 参考訳(メタデータ) (2023-02-06T23:34:51Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Wasserstein $K$-means for clustering probability distributions [16.153709556346417]
ユークリッド空間では、セントロイドと距離に基づくK$平均の定式化は同値である。
現代の機械学習アプリケーションでは、データは確率分布として発生し、測度値のデータを扱う自然な一般化は最適な輸送距離を使用する。
SDP緩和ワッサースタイン$K$-平均は、クラスターが2ドルワッサースタイン計量の下で十分に分離されているため、正確な回復を達成することができることを示す。
論文 参考訳(メタデータ) (2022-09-14T23:43:16Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。
クエリを少なくすることで、問題の解決が容易になる。
論文 参考訳(メタデータ) (2021-06-04T02:32:26Z) - ThetA -- fast and robust clustering via a distance parameter [3.0020405188885815]
クラスタリングは機械学習の根本的な問題であり、遠隔ベースのアプローチが数十年にわたってこの分野を支配してきた。
Theta-based Algorithms (ThetA) と呼ばれる新しい距離しきい値法を提案する。
論文 参考訳(メタデータ) (2021-02-13T23:16:33Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。