論文の概要: The effect of measurement error on clustering algorithms
- arxiv url: http://arxiv.org/abs/2005.11743v1
- Date: Sun, 24 May 2020 13:36:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 13:24:06.877496
- Title: The effect of measurement error on clustering algorithms
- Title(参考訳): クラスタリングアルゴリズムにおける測定誤差の影響
- Authors: Paulina Pankowska and Daniel L. Oberski
- Abstract要約: 本稿では,2つの共通クラスタリングアルゴリズム,GMMとDBSCANのランダムおよび系統的誤りに対する感度について検討する。
測定誤差は、体系的である場合や、データセットのすべての変数に影響を与える場合など、特に問題となる。
ここでは, 結合成分を持つ分割型GMMは密度ベースDBSCAN法よりも測定誤差に敏感でないことも考察した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering consists of a popular set of techniques used to separate data into
interesting groups for further analysis. Many data sources on which clustering
is performed are well-known to contain random and systematic measurement
errors. Such errors may adversely affect clustering. While several techniques
have been developed to deal with this problem, little is known about the
effectiveness of these solutions. Moreover, no work to-date has examined the
effect of systematic errors on clustering solutions.
In this paper, we perform a Monte Carlo study to investigate the sensitivity
of two common clustering algorithms, GMMs with merging and DBSCAN, to random
and systematic error. We find that measurement error is particularly
problematic when it is systematic and when it affects all variables in the
dataset. For the conditions considered here, we also find that the
partition-based GMM with merged components is less sensitive to measurement
error than the density-based DBSCAN procedure.
- Abstract(参考訳): クラスタリングは、さらなる分析のためにデータを興味深いグループに分割するために使用される一般的なテクニックからなる。
クラスタリングを行う多くのデータソースは、ランダムで体系的な測定エラーを含むことがよく知られている。
このようなエラーはクラスタリングに悪影響を及ぼす可能性がある。
この問題に対処するためにいくつかの技術が開発されているが、これらのソリューションの有効性についてはほとんど分かっていない。
さらに,クラスタ化ソリューションに対する系統的エラーの影響について,これまで検討した研究は行われていない。
本稿では,2つの一般的なクラスタリングアルゴリズムであるgmms with merge と dbscan のランダム・システマティックエラーに対する感度について検討するモンテカルロ研究を行う。
測定エラーは、体系的かつデータセット内のすべての変数に影響を与える場合に特に問題となる。
ここでは, 結合成分を持つ分割型GMMは密度ベースDBSCAN法よりも測定誤差に敏感でないことも考察した。
関連論文リスト
- A simulation study of cluster search algorithms in data set generated by Gaussian mixture models [0.0]
本研究では,ガウス混合モデル (GMM) が生成できる様々なケースにおいて,セントロイドおよびモデルに基づくクラスタ探索アルゴリズムについて検討した。
その結果, ユークリッド距離に基づくクラスタ分割基準は, クラスタが重なり合うと不合理な決定を下すことがわかった。
論文 参考訳(メタデータ) (2024-07-27T07:47:25Z) - Cluster Quilting: Spectral Clustering for Patchwork Learning [8.500141848121782]
我々は、パッチワーク学習におけるクラスタリングの問題に焦点をあて、何らかの機能に対して共同で観測されない場合であっても、すべてのサンプル間のクラスタを見つけることを目的としている。
本稿では, (i) パッチ間の重なり構造を利用するパッチ順序付け, (ii) パッチワイズSVD, (iii) パッチオーバーラップのためのトップ特異ベクトルの逐次線形マッピング, (iv) 結合および重み付き特異ベクトル上のk-meansからなる新しいスペクトルクラスタリング手法を提案する。
準ガウス混合モデルの下では、両者を反映する非漸近的誤クラスタリング率による理論的保証を確立する。
論文 参考訳(メタデータ) (2024-06-19T20:52:47Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Causality-Based Multivariate Time Series Anomaly Detection [63.799474860969156]
我々は、因果的観点から異常検出問題を定式化し、多変量データを生成するための通常の因果的メカニズムに従わない事例として、異常を考察する。
次に、まずデータから因果構造を学習し、次に、あるインスタンスが局所因果機構に対して異常であるかどうかを推定する因果検出手法を提案する。
我々は、実世界のAIOpsアプリケーションに関するケーススタディと同様に、シミュレートされたデータセットとパブリックなデータセットの両方を用いて、私たちのアプローチを評価します。
論文 参考訳(メタデータ) (2022-06-30T06:00:13Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Clustered Hierarchical Anomaly and Outlier Detection Algorithms [0.0]
距離計量によって定義されるバナッハ空間の多様体を学習する高速階層的クラスタリング手法であるCLAMを提案する。
24の公開データセットで、CHAODAのパフォーマンスを最先端の監視されていない異常検出アルゴリズムと比較します。
論文 参考訳(メタデータ) (2021-02-09T15:27:52Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - Categorical anomaly detection in heterogeneous data using minimum
description length clustering [3.871148938060281]
異種データを扱うため,MPLに基づく異常検出モデルの拡張のためのメタアルゴリズムを提案する。
実験の結果, 離散混合モデルを用いることで, 従来の2つの異常検出アルゴリズムと比較して, 競合性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-06-14T14:48:37Z) - Handling missing data in model-based clustering [0.0]
欠損データの存在下でガウス混合体を適合させる2つの方法を提案する。
どちらの手法もデータ拡張のためにモンテカルロ予測最大化アルゴリズムの変種を用いる。
提案手法はクラスタ同定と密度推定の両面で多重計算手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-06-04T15:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。