論文の概要: Quantifying uncertainty in spectral clusterings: expectations for perturbed and incomplete data
- arxiv url: http://arxiv.org/abs/2505.17819v1
- Date: Fri, 23 May 2025 12:35:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.067269
- Title: Quantifying uncertainty in spectral clusterings: expectations for perturbed and incomplete data
- Title(参考訳): スペクトルクラスタリングにおける不確実性の定量化--摂動・不完全データに対する期待
- Authors: Jürgen Dölz, Jolanda Weygandt,
- Abstract要約: スペクトルクラスタリング(Spectral clustering)は、未学習データを異なる形状の解離クラスタに分割できる、一般的な教師なし学習技術である。
検討中のデータは、しばしば実験的なデータであり、データが測定エラーの対象であり、測定が失われたり無効になる可能性があることを暗示している。
統計学的に予測されるクラスタリングの確率的モンテカルロ近似に対するランダム集合理論に基づく数学的枠組みについて論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spectral clustering is a popular unsupervised learning technique which is able to partition unlabelled data into disjoint clusters of distinct shapes. However, the data under consideration are often experimental data, implying that the data is subject to measurement errors and measurements may even be lost or invalid. These uncertainties in the corrupted input data induce corresponding uncertainties in the resulting clusters, and the clusterings thus become unreliable. Modelling the uncertainties as random processes, we discuss a mathematical framework based on random set theory for the computational Monte Carlo approximation of statistically expected clusterings in case of corrupted, i.e., perturbed, incomplete, and possibly even additional, data. We propose several computationally accessible quantities of interest and analyze their consistency in the infinite data point and infinite Monte Carlo sample limit. Numerical experiments are provided to illustrate and compare the proposed quantities.
- Abstract(参考訳): スペクトルクラスタリング(Spectral clustering)は、未学習データを異なる形状の解離クラスタに分割できる、一般的な教師なし学習技術である。
しかしながら、検討中のデータは、しばしば実験データであり、データが測定エラーの対象であり、測定が失われたり、無効になる可能性があることを暗示している。
これらの破損した入力データの不確実性は、結果のクラスタ内で対応する不確実性を誘導し、クラスタリングは信頼できないものとなる。
不確かさをランダムな過程としてモデル化し、確率的モンテカルロ近似に対するランダムな集合論に基づく数学的枠組みについて議論する。
計算に利用できる数種類の興味量を提案し、無限のデータ点と無限モンテカルロサンプル限界におけるそれらの一貫性を解析する。
提案した量を明らかにし比較するための数値実験が提供される。
関連論文リスト
- Interpretable Clustering with the Distinguishability Criterion [0.4419843514606336]
本稿では,特定クラスタの分離可能性の定量化と推定クラスタ構成の検証を行うために,分散可能性基準と呼ばれるグローバルな基準を提案する。
本稿では、分散可能性基準と多くの一般的なクラスタリング手順を統合した損失関数に基づく計算フレームワークを提案する。
シミュレーション研究および実データアプリケーションに基づく包括的データ解析の結果とともに,これらの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-24T16:38:15Z) - Assessing the overall and partial causal well-specification of nonlinear additive noise models [4.13592995550836]
このような誤用があっても因果関係を推測できる予測変数を同定することを目的としている。
本稿では,有限サンプルデータに対するアルゴリズムを提案し,その特性について議論し,シミュレーションおよび実データ上での性能を示す。
論文 参考訳(メタデータ) (2023-10-25T09:44:16Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - A new nonparametric interpoint distance-based measure for assessment of
clustering [0.0]
データセットに存在するクラスタの最適な数を特定するために,新たなインターポイント距離に基づく測度を提案する。
提案する基準は任意のクラスタリングアルゴリズムと互換性があり,未知数のクラスタを決定するために使用できる。
論文 参考訳(メタデータ) (2022-10-01T04:27:54Z) - Posterior and Computational Uncertainty in Gaussian Processes [52.26904059556759]
ガウスのプロセスはデータセットのサイズとともに違法にスケールする。
多くの近似法が開発されており、必然的に近似誤差を導入している。
この余分な不確実性の原因は、計算が限られているため、近似後部を使用すると完全に無視される。
本研究では,観測された有限個のデータと有限個の計算量の両方から生じる組合せ不確実性を一貫した推定を行う手法の開発を行う。
論文 参考訳(メタデータ) (2022-05-30T22:16:25Z) - Theoretical characterization of uncertainty in high-dimensional linear
classification [24.073221004661427]
本研究では,高次元入力データとラベルの限られたサンプル数から学習する不確実性が,近似メッセージパッシングアルゴリズムによって得られることを示す。
我々は,信頼度を適切に正則化することで緩和する方法について論じるとともに,損失に対するクロスバリデーションが0/1誤差よりもキャリブレーションが優れていることを示す。
論文 参考訳(メタデータ) (2022-02-07T15:32:07Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Partial Counterfactual Identification from Observational and
Experimental Data [83.798237968683]
観測データと実験データの任意の組み合わせから最適境界を近似する有効なモンテカルロアルゴリズムを開発した。
我々のアルゴリズムは、合成および実世界のデータセットに基づいて広範囲に検証されている。
論文 参考訳(メタデータ) (2021-10-12T02:21:30Z) - Deep Generative Pattern-Set Mixture Models for Nonignorable Missingness [0.0]
無視できないデータと無視できないデータの両方をモデル化する可変オートエンコーダアーキテクチャを提案する。
モデルでは,観測されたデータと欠落マスクに基づいて,欠落したデータを欠落パターンにクラスタ化することを明示的に学習する。
当社のセットアップでは,無知かつ無知な欠如の特性をトレードオフすることで,両タイプのデータに適用することが可能である。
論文 参考訳(メタデータ) (2021-03-05T08:21:35Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。