論文の概要: Improving clustering quality evaluation in noisy Gaussian mixtures
- arxiv url: http://arxiv.org/abs/2503.00379v2
- Date: Thu, 27 Mar 2025 10:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:50:11.969600
- Title: Improving clustering quality evaluation in noisy Gaussian mixtures
- Title(参考訳): うるさいガウス混合系におけるクラスタリング品質評価の改善
- Authors: Renato Cordeiro de Amorim, Vladimir Makarenkov,
- Abstract要約: 本稿では,クラスタリング検証の品質を高めるためのFIR手法を提案する。
FIRは、特にノイズや不適切な特徴のある設定において、クラスター妥当性指標の値と基底真理との相関性を一貫して改善することを示した。
- 参考スコア(独自算出の注目度): 2.3940819037450987
- License:
- Abstract: Clustering is a well-established technique in machine learning and data analysis, widely used across various domains. Cluster validity indices, such as the Average Silhouette Width, Calinski-Harabasz, and Davies-Bouldin indices, play a crucial role in assessing clustering quality when external ground truth labels are unavailable. However, these measures can be affected by the feature relevance issue, potentially leading to unreliable evaluations in high-dimensional or noisy data sets. We introduce a theoretically grounded Feature Importance Rescaling (FIR) method that enhances the quality of clustering validation by adjusting feature contributions based on their dispersion. It attenuates noise features, clarifies clustering compactness and separation, and thereby aligns clustering validation more closely with the ground truth. Through extensive experiments on synthetic data sets under different configurations, we demonstrate that FIR consistently improves the correlation between the values of cluster validity indices and the ground truth, particularly in settings with noisy or irrelevant features. The results show that FIR increases the robustness of clustering evaluation, reduces variability in performance across different data sets, and remains effective even when clusters exhibit significant overlap. These findings highlight the potential of FIR as a valuable enhancement of clustering validation, making it a practical tool for unsupervised learning tasks where labelled data is unavailable.
- Abstract(参考訳): クラスタリングは機械学習とデータ分析において確立された技術であり、さまざまな領域で広く利用されている。
Average Silhouette Width、Calinski-Harabasz、Davies-Bouldin Indicesなどのクラスタ妥当性指標は、外部の接地真実ラベルが利用できない場合のクラスタリング品質を評価する上で重要な役割を果たす。
しかし、これらの尺度は特徴関連問題の影響を受けうるため、高次元またはノイズの多いデータセットにおける信頼性の低い評価に繋がる可能性がある。
提案手法は, クラスタリング検証の精度を, 分散度に基づいて特徴量を調整することによって向上させるものである。
ノイズ特性を減衰させ、クラスタリングのコンパクト性と分離を明確にし、クラスタリングのバリデーションを地上の真実とより密に整合させる。
異なる構成下での合成データセットに関する広範な実験を通じて、FIRはクラスター妥当性指標の値と基底真理の関係を、特にノイズや無関係な特徴を持つ環境で一貫して改善することを示した。
その結果、FIRはクラスタリング評価の堅牢性を高め、異なるデータセット間での性能のばらつきを低減し、クラスタが大きな重複を示す場合でも有効であることがわかった。
これらの知見は、クラスタリング検証の有効な強化としてのFIRの可能性を強調し、ラベル付きデータが利用できない教師なし学習タスクの実践的ツールとなる。
関連論文リスト
- Does Unsupervised Domain Adaptation Improve the Robustness of Amortized Bayesian Inference? A Systematic Evaluation [3.4109073456116477]
近年のロバストなアプローチでは、シミュレーションおよび観測データの埋め込み空間と一致するように、教師なし領域適応(UDA)が採用されている。
本研究では,領域間の要約空間の整合が,非モデル化現象や雑音の影響を効果的に緩和することを示した。
以上の結果から,UDA技術を用いてABIのロバスト性を高める際に,不特定型を慎重に検討することの必要性が示唆された。
論文 参考訳(メタデータ) (2025-02-07T14:13:51Z) - Interaction-Aware Gaussian Weighting for Clustered Federated Learning [58.92159838586751]
フェデレートラーニング(FL)は、プライバシを維持しながらモデルをトレーニングするための分散パラダイムとして登場した。
本稿では,新たなクラスタリングFL法であるFedGWC(Federated Gaussian Weighting Clustering)を提案する。
ベンチマークデータセットを用いた実験により,FedGWCはクラスタの品質と分類精度において,既存のFLアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-05T16:33:36Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - From A-to-Z Review of Clustering Validation Indices [4.08908337437878]
我々は、最も一般的なクラスタリングアルゴリズムを用いて、内部および外部クラスタリング検証指標の性能をレビューし、評価する。
内部クラスタリング検証と外部クラスタリング検証の両方の機能を調べるための分類フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T13:52:02Z) - Deep Clustering Evaluation: How to Validate Internal Clustering Validation Measures [2.2252684361733284]
ディープクラスタリング(Deep Clustering)は、ディープニューラルネットワークを用いて複雑な高次元データを分割する手法である。
低次元空間用に設計された従来のクラスタリング検証は、ディープクラスタリングにおいて問題となる。
本稿では、ディープラーニングにおけるクラスタリング品質の評価におけるこれらの課題に対処する。
論文 参考訳(メタデータ) (2024-03-21T20:43:44Z) - Cluster Metric Sensitivity to Irrelevant Features [0.0]
異なる種類の無関係変数が、異なる方法で$k$-meansからクラスタリングの結果にどのように影響するかを示す。
以上の結果から,シルエット係数とデイビー=ボルディンスコアは,無関係な付加機能に対して最も敏感であることが示唆された。
論文 参考訳(メタデータ) (2024-02-19T10:02:00Z) - Sanitized Clustering against Confounding Bias [38.928080236294775]
本稿では,共起バイアスに対する衛生クラスタリング(SCAB)という新しいクラスタリングフレームワークを提案する。
SCABは、非線型依存尺度を通じて、複素データのセマンティック潜在空間における境界要素を除去する。
複雑なデータセットの実験は、SCABがクラスタリングのパフォーマンスにおいて大きな向上を達成していることを示している。
論文 参考訳(メタデータ) (2023-11-02T14:10:14Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。