論文の概要: Cluster Metric Sensitivity to Irrelevant Features
- arxiv url: http://arxiv.org/abs/2402.12008v1
- Date: Mon, 19 Feb 2024 10:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 17:17:49.376706
- Title: Cluster Metric Sensitivity to Irrelevant Features
- Title(参考訳): 不適切な特徴に対するクラスター量感度
- Authors: Miles McCrory and Spencer A. Thomas
- Abstract要約: 異なる種類の無関係変数が、異なる方法で$k$-meansからクラスタリングの結果にどのように影響するかを示す。
以上の結果から,シルエット係数とデイビー=ボルディンスコアは,無関係な付加機能に対して最も敏感であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Clustering algorithms are used extensively in data analysis for data
exploration and discovery. Technological advancements lead to continually
growth of data in terms of volume, dimensionality and complexity. This provides
great opportunities in data analytics as the data can be interrogated for many
different purposes. This however leads challenges, such as identification of
relevant features for a given task. In supervised tasks, one can utilise a
number of methods to optimise the input features for the task objective (e.g.
classification accuracy). In unsupervised problems, such tools are not readily
available, in part due to an inability to quantify feature relevance in
unlabeled tasks. In this paper, we investigate the sensitivity of clustering
performance noisy uncorrelated variables iteratively added to baseline datasets
with well defined clusters. We show how different types of irrelevant variables
can impact the outcome of a clustering result from $k$-means in different ways.
We observe a resilience to very high proportions of irrelevant features for
adjusted rand index (ARI) and normalised mutual information (NMI) when the
irrelevant features are Gaussian distributed. For Uniformly distributed
irrelevant features, we notice the resilience of ARI and NMI is dependent on
the dimensionality of the data and exhibits tipping points between high scores
and near zero. Our results show that the Silhouette Coefficient and the
Davies-Bouldin score are the most sensitive to irrelevant added features
exhibiting large changes in score for comparably low proportions of irrelevant
features regardless of underlying distribution or data scaling. As such the
Silhouette Coefficient and the Davies-Bouldin score are good candidates for
optimising feature selection in unsupervised clustering tasks.
- Abstract(参考訳): クラスタリングアルゴリズムは、データ探索と発見のためのデータ分析に広く使われている。
技術進歩は、体積、次元、複雑さの点でデータの継続的な成長につながる。
これにより、さまざまな目的でデータを尋問できるため、データ分析において大きな機会が得られます。
しかし、これは特定のタスクに関連する特徴の特定のような課題を導く。
教師付きタスクでは、タスク目的(例えば分類精度)の入力機能を最適化するために、多くのメソッドを利用することができる。
教師なし問題では、ラベルなしのタスクで特徴の関連性を定量化できないため、そのようなツールは簡単には利用できない。
本稿では,クラスタが明確に定義されたベースラインデータセットに反復的に付加される非相関変数のクラスタリング性能の感度について検討する。
異なる種類の無関係変数が、異なる方法で$k$-meansからクラスタリングの結果にどのように影響するかを示す。
我々は,調整ランド指数 (ari) と正規化相互情報 (nmi) に対する無関係特徴の非常に高い割合に対するレジリエンスを,無関係特徴がガウス分布である場合に観察する。
均一に分布する無関係な特徴に対しては,ari と nmi のレジリエンスがデータの次元に依存することに気付き,ハイスコアとニアゼロの間のチップポイントを示す。
その結果,silhouette係数とdavies-bouldinスコアは,下位分布やデータスケーリングによらず,無関係な特徴の相対的に低い割合でスコアに大きな変化を示す無関係な特徴に最も敏感であることがわかった。
このように、シルエット係数とデイビス・ボーディンスコアは教師なしクラスタリングタスクで特徴選択を最適化する良い候補となる。
関連論文リスト
- K-means Derived Unsupervised Feature Selection using Improved ADMM [25.145984747164256]
本稿では,K-means Derived Unsupervised Feature Selection (K-means UFS) という新しい手法を提案する。
既存のスペクトル分析に基づく非教師付き特徴選択法とは異なり、K平均の目的を用いて特徴を選択する。
実際のデータセットでの実験では、クラスタリングの機能の選択において、我々のK平均UFSはベースラインよりも効果的であることが示されています。
論文 参考訳(メタデータ) (2024-11-19T18:05:02Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Learning to Detect Interesting Anomalies [0.0]
AHUNTはMNIST, CIFAR10, Galaxy-DESIデータに対して優れた性能を示す。
AHUNTはまた、Oracleの評価に応じて、異常クラスの数を有機的に成長させることを可能にする。
論文 参考訳(メタデータ) (2022-10-28T18:00:06Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Unsupervised Features Ranking via Coalitional Game Theory for
Categorical Data [0.28675177318965034]
教師なしの機能選択は、機能の数を減らすことを目的としている。
導出特徴の選択は、冗長率を下げる競合する手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-17T14:17:36Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Revisiting Data Complexity Metrics Based on Morphology for Overlap and
Imbalance: Snapshot, New Overlap Number of Balls Metrics and Singular
Problems Prospect [9.666866159867444]
本研究は,データ形態に基づく複雑性メトリクスの再検討に焦点をあてる。
クラスによるボールのカバレッジに基づいており、オーバーラップ・ナンバー・オブ・ボールにちなんで名付けられている。
論文 参考訳(メタデータ) (2020-07-15T18:21:13Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。