論文の概要: Clustering with missing data: which equivalent for Rubin's rules?
- arxiv url: http://arxiv.org/abs/2011.13694v2
- Date: Fri, 13 May 2022 08:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 02:39:27.372487
- Title: Clustering with missing data: which equivalent for Rubin's rules?
- Title(参考訳): 欠落したデータによるクラスタリング: rubinのルールと同等か?
- Authors: Vincent Audigier, Nd\`eye Niang
- Abstract要約: 多重計算(MI)は、欠落した値を扱う一般的な方法である。
本稿では,MIを用いたデータ不足を伴うクラスタリングの完全なビューを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple imputation (MI) is a popular method for dealing with missing values.
However, the suitable way for applying clustering after MI remains unclear: how
to pool partitions? How to assess the clustering instability when data are
incomplete? By answering both questions, this paper proposed a complete view of
clustering with missing data using MI. The problem of partitions pooling is
here addressed using consensus clustering while, based on the bootstrap theory,
we explain how to assess the instability related to observed and missing data.
The new rules for pooling partitions and instability assessment are
theoretically argued and extensively studied by simulation. Partitions pooling
improves accuracy, while measuring instability with missing data enlarges the
data analysis possibilities: it allows assessment of the dependence of the
clustering to the imputation model, as well as a convenient way for choosing
the number of clusters when data are incomplete, as illustrated on a real data
set.
- Abstract(参考訳): 多重計算(MI)は、欠落した値を扱う一般的な方法である。
しかし、MI後にクラスタリングを適用するのに適した方法は、まだ不明である。
データが不完全である場合のクラスタリングの不安定性を評価するには?
両質問に答えて,MIを用いたデータ不足によるクラスタリングの完全なビューを提案する。
分割プーリングの問題は,ブートストラップ理論に基づいて観測データと欠落データに係わる不安定性を評価する方法について,コンセンサスクラスタリングを用いて解決する。
分割のプーリングと不安定性評価の新しいルールは理論的に議論され、シミュレーションによって広く研究されている。
分割プーリングは、データの欠落によって不安定性を測定しながら、データの分析可能性を大きくする。実際のデータセットに示すように、クラスタリングが計算モデルに依存していることの評価と、データが不完全であるときにクラスタ数を選択する便利な方法である。
関連論文リスト
- ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - LSROM: Learning Self-Refined Organizing Map for Fast Imbalanced Streaming Data Clustering [26.893092831949264]
本研究では、不均衡なストリーミングデータクラスタリング問題に対処するため、LSROM(Learning Self-Refined Organizing Map)と呼ばれる効率的な手法を提案する。
既存の不均衡なデータクラスタリングアプローチと比較して、LSROMは、非常に競争力のあるクラスタリング精度を達成しつつ、より低い時間複雑性の$O(nlog n)$を持つ。
論文 参考訳(メタデータ) (2024-04-14T13:08:21Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Normalised clustering accuracy: An asymmetric external cluster validity measure [2.900810893770134]
クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。
本稿では、一般的に使われている古典的分割類似度スコアは、いくつかの望ましい性質を欠いていると論じる。
我々は,最適セットマッチング精度のバージョンである新しい尺度を提案し,分析する。
論文 参考訳(メタデータ) (2022-09-07T05:08:34Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Model-based clustering of partial records [11.193504036335503]
観測値の限界密度を用いたモデルベースの手法でクラスタリング手法を開発しています。
提案アルゴリズムは,不完全データセットの欠落値を考慮した,対応する全期待最大化(EM)手法と比較する。
シミュレーション研究により,本手法は実クラスタ分割の回復に有利であることが示された。
論文 参考訳(メタデータ) (2021-03-30T13:30:59Z) - reval: a Python package to determine best clustering solutions with
stability-based relative clustering validation [1.8129328638036126]
revalは、安定性ベースの相対クラスタリングバリデーションメソッドを活用して、最適なクラスタリングソリューションを決定するPythonパッケージである。
この研究は、教師付き学習を通じて、目に見えないデータのサブセットを複製するものとして、最高のクラスタリングソリューションを選択する安定性ベースの方法の開発を目的としている。
論文 参考訳(メタデータ) (2020-08-27T10:36:56Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - Selecting the Number of Clusters $K$ with a Stability Trade-off: an
Internal Validation Criterion [0.0]
クラスタリングの安定性は自然でモデルに依存しない原理として現れてきた。
優れたクラスタリングは安定すべきであり、各クラスタには安定したパーティションが存在しなければならない、という新しい原則を提案します。
論文 参考訳(メタデータ) (2020-06-15T16:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。