論文の概要: Noise-robust Clustering
- arxiv url: http://arxiv.org/abs/2110.08871v1
- Date: Sun, 17 Oct 2021 17:15:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 14:11:05.309561
- Title: Noise-robust Clustering
- Title(参考訳): ノイズロバストクラスタリング
- Authors: Rahmat Adesunkanmi, Ratnesh Kumar
- Abstract要約: 本稿では,教師なし機械学習におけるノイズロバストクラスタリング手法を提案する。
ノイズ、一貫性、その他の曖昧性に関する不確実性は、データ分析において深刻な障害となる可能性がある。
- 参考スコア(独自算出の注目度): 2.0199917525888895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents noise-robust clustering techniques in unsupervised
machine learning. The uncertainty about the noise, consistency, and other
ambiguities can become severe obstacles in data analytics. As a result, data
quality, cleansing, management, and governance remain critical disciplines when
working with Big Data. With this complexity, it is no longer sufficient to
treat data deterministically as in a classical setting, and it becomes
meaningful to account for noise distribution and its impact on data sample
values. Classical clustering methods group data into "similarity classes"
depending on their relative distances or similarities in the underlying space.
This paper addressed this problem via the extension of classical $K$-means and
$K$-medoids clustering over data distributions (rather than the raw data). This
involves measuring distances among distributions using two types of measures:
the optimal mass transport (also called Wasserstein distance, denoted $W_2$)
and a novel distance measure proposed in this paper, the expected value of
random variable distance (denoted ED). The presented distribution-based
$K$-means and $K$-medoids algorithms cluster the data distributions first and
then assign each raw data to the cluster of data's distribution.
- Abstract(参考訳): 本稿では,教師なし機械学習におけるノイズロバストクラスタリング手法を提案する。
ノイズや一貫性、その他の曖昧さに関する不確実性は、データ分析において深刻な障害となる可能性がある。
その結果、ビッグデータを扱う場合、データ品質、クリーニング、管理、ガバナンスは重要な規律のままである。
この複雑さにより、古典的な設定のように決定論的にデータを扱うのに十分ではなく、ノイズ分布とデータサンプル値への影響を考慮することが意味を持つようになった。
古典的なクラスタリング手法は、データをその相対距離や基礎空間の類似度に応じて「類似クラス」に分類する。
本稿では,古典的な$K$-meansと$K$-medoidsを拡張して,(生データではなく)データ分散をクラスタリングすることでこの問題に対処する。
これには、最適質量輸送(ワッサーシュタイン距離、$W_2$とも表記される)と、確率変数距離(EDと表記される)の期待値である新しい距離測度という2種類の測度を用いて分布間の距離を測定することが含まれる。
提示された分散ベースの$k$-meansと$k$-medoidsアルゴリズムは、まずデータ分布をクラスタ化し、次に各生データをデータの分散クラスタに割り当てる。
関連論文リスト
- A provable initialization and robust clustering method for general mixture models [6.806940901668607]
クラスタリングは、異種データの存在下での統計機械学習の基本的なツールである。
最新の結果は、ガウス以下の誤差を伴うセントロイドの周りにデータが分散されている場合に、最適なラベルの誤りを保証することに焦点が当てられている。
論文 参考訳(メタデータ) (2024-01-10T22:56:44Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Influence of Swarm Intelligence in Data Clustering Mechanisms [0.0]
自然にインスパイアされたSwarmベースのアルゴリズムは、データの欠如と一貫性のない大規模なデータセットに対処するために、データクラスタリングに使用される。
本稿では、これらの新しいアプローチの性能を概観し、問題のある状況に最適な方法の比較を行う。
論文 参考訳(メタデータ) (2023-05-07T08:40:50Z) - Research on Efficient Fuzzy Clustering Method Based on Local Fuzzy
Granular balls [67.33923111887933]
本稿では,データをグラニュラーボールを用いてファジィにイテレーションし,その位置にある2つのグラニュラーボールのみをデータのメンバーシップ度として検討する。
ファジィグラニュラーボールセットは、異なるデータシナリオに直面して、より多くの処理方法を使用することができる。
論文 参考訳(メタデータ) (2023-03-07T01:52:55Z) - Optimizing the Noise in Self-Supervised Learning: from Importance
Sampling to Noise-Contrastive Estimation [80.07065346699005]
GAN(Generative Adversarial Networks)のように、最適な雑音分布はデータ分布に等しくなると広く想定されている。
我々は、この自己教師型タスクをエネルギーベースモデルの推定問題として基礎づけるノイズ・コントラスト推定に目を向ける。
本研究は, 最適雑音のサンプリングは困難であり, 効率性の向上は, データに匹敵する雑音分布を選択することに比べ, 緩やかに行うことができると結論付けた。
論文 参考訳(メタデータ) (2023-01-23T19:57:58Z) - Wasserstein $K$-means for clustering probability distributions [16.153709556346417]
ユークリッド空間では、セントロイドと距離に基づくK$平均の定式化は同値である。
現代の機械学習アプリケーションでは、データは確率分布として発生し、測度値のデータを扱う自然な一般化は最適な輸送距離を使用する。
SDP緩和ワッサースタイン$K$-平均は、クラスターが2ドルワッサースタイン計量の下で十分に分離されているため、正確な回復を達成することができることを示す。
論文 参考訳(メタデータ) (2022-09-14T23:43:16Z) - No More Than 6ft Apart: Robust K-Means via Radius Upper Bounds [17.226362076527764]
k-means、k-medoids、k-centersといったCentroidベースのクラスタリング手法は、探索データ解析においてゴーツーツールとして強く応用されている。
多くの場合、これらの手法はデータセットの視覚化や要約のためにデータ多様体の代表的なセントロイドを得るのに使用される。
本研究では, 遠心円周波によって形成されるクラスターに最大半径制約$r$を導入することにより, このようなシナリオを緩和することを提案する。
論文 参考訳(メタデータ) (2022-03-04T18:59:02Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。