論文の概要: Evolution of $K$-means solution landscapes with the addition of dataset
outliers and a robust clustering comparison measure for their analysis
- arxiv url: http://arxiv.org/abs/2306.14346v1
- Date: Sun, 25 Jun 2023 21:22:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 15:23:44.549450
- Title: Evolution of $K$-means solution landscapes with the addition of dataset
outliers and a robust clustering comparison measure for their analysis
- Title(参考訳): データセットの異常値とロバストクラスタリング比較尺度を付加したk$-meansソリューションランドスケープの進化
- Authors: Luke Dicks and David J. Wales
- Abstract要約: 我々は、データセットのアウトリージの増加の結果、K$-meansのソリューション空間の変化をマッピングするために、エネルギーランドスケープアプローチを使用します。
速度論的解析により、全てのケースにおいて、全体のファンネルは浅い局所的に燃やされた地域で構成されていることが明らかとなった。
本稿では,速度解析から得られた速度がクラスタリング類似性の新たな尺度となることを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The $K$-means algorithm remains one of the most widely-used clustering
methods due to its simplicity and general utility. The performance of $K$-means
depends upon location of minima low in cost function, amongst a potentially
vast number of solutions. Here, we use the energy landscape approach to map the
change in $K$-means solution space as a result of increasing dataset outliers
and show that the cost function surface becomes more funnelled. Kinetic
analysis reveals that in all cases the overall funnel is composed of shallow
locally-funnelled regions, each of which are separated by areas that do not
support any clustering solutions. These shallow regions correspond to different
types of clustering solution and their increasing number with outliers leads to
longer pathways within the funnel and a reduced correlation between accuracy
and cost function. Finally, we propose that the rates obtained from kinetic
analysis provide a novel measure of clustering similarity that incorporates
information about the paths between them. This measure is robust to outliers
and we illustrate the application to datasets containing multiple outliers.
- Abstract(参考訳): K$-meansアルゴリズムは、その単純さと汎用性から、最も広く使われているクラスタリング手法の1つである。
k$-meansのパフォーマンスは、潜在的に膨大な数のソリューションの中で、コストの少ないminimaの位置に依存する。
ここでは,dataset outlierの増加によるk$-meansソリューション空間の変化を,エネルギーランドスケープアプローチを用いてマッピングし,コスト関数表面がよりファンネル化していることを示す。
速度論的解析により、全ての場合において全体ファンネルは浅い局所燃料領域で構成されており、それぞれがクラスタリングソリューションをサポートしない領域によって分離されていることが明らかになった。
これらの浅い領域は、異なる種類のクラスタリングソリューションに対応し、異常値の増加は、ファンネル内の長い経路と精度とコスト関数の間の相関を減少させる。
最後に,運動解析から得られた速度は,それらの間の経路に関する情報を取り入れたクラスタリング類似性の新たな尺度を提供する。
この尺度は外れ値に対して堅牢であり、複数の外れ値を含むデータセットに適用例を示す。
関連論文リスト
- Strong bounds for large-scale Minimum Sum-of-Squares Clustering [0.9831489366502302]
Minimum Sum-of-Squares Clustering (MSSC)は、最も広く使われているクラスタリング手法の1つである。
MSSCは、データポイントとそれに対応するクラスタセントロイド間の合計2乗ユークリッド距離を最小化することを目的としている。
最適性ギャップによるMSSCソリューションの検証手法を提案する。
論文 参考訳(メタデータ) (2025-02-12T13:40:00Z) - Boosting K-means for Big Data by Fusing Data Streaming with Global Optimization [0.3069335774032178]
K平均クラスタリングはデータマイニングの基盤であるが、その効率は大量のデータセットに直面すると悪化する。
可変近傍探索(VNS)メタヒューリスティックを利用して,K平均クラスタリングをビッグデータに最適化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-18T15:43:34Z) - Fair Clustering for Data Summarization: Improved Approximation Algorithms and Complexity Insights [16.120911591795295]
一部のアプリケーションでは、すべてのデータポイントをセンターとして選択できるが、一般的な設定では、施設またはサプライヤーと呼ばれる一連のポイントからセンターを選択する必要がある。
そこで本研究では,複数のグループから構成されるデータに対して,各グループから最小限のセンタを選択する必要がある,公平な$k$-supplier問題としてモデル化された公平なデータ要約に焦点を当てる。
論文 参考訳(メタデータ) (2024-10-16T18:00:19Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Research on Efficient Fuzzy Clustering Method Based on Local Fuzzy
Granular balls [67.33923111887933]
本稿では,データをグラニュラーボールを用いてファジィにイテレーションし,その位置にある2つのグラニュラーボールのみをデータのメンバーシップ度として検討する。
ファジィグラニュラーボールセットは、異なるデータシナリオに直面して、より多くの処理方法を使用することができる。
論文 参考訳(メタデータ) (2023-03-07T01:52:55Z) - A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data [0.0]
我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。
このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
論文 参考訳(メタデータ) (2023-02-06T23:34:51Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。
クエリを少なくすることで、問題の解決が容易になる。
論文 参考訳(メタデータ) (2021-06-04T02:32:26Z) - ThetA -- fast and robust clustering via a distance parameter [3.0020405188885815]
クラスタリングは機械学習の根本的な問題であり、遠隔ベースのアプローチが数十年にわたってこの分野を支配してきた。
Theta-based Algorithms (ThetA) と呼ばれる新しい距離しきい値法を提案する。
論文 参考訳(メタデータ) (2021-02-13T23:16:33Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。