論文の概要: Sanitized Clustering against Confounding Bias
- arxiv url: http://arxiv.org/abs/2311.01252v1
- Date: Thu, 2 Nov 2023 14:10:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 13:27:25.641405
- Title: Sanitized Clustering against Confounding Bias
- Title(参考訳): 汚染バイアスに対する衛生クラスタリング
- Authors: Yinghua Yao, Yuangang Pan, Jing Li, Ivor W. Tsang, Xin Yao
- Abstract要約: 本稿では,共起バイアスに対する衛生クラスタリング(SCAB)という新しいクラスタリングフレームワークを提案する。
SCABは、非線型依存尺度を通じて、複素データのセマンティック潜在空間における境界要素を除去する。
複雑なデータセットの実験は、SCABがクラスタリングのパフォーマンスにおいて大きな向上を達成していることを示している。
- 参考スコア(独自算出の注目度): 38.928080236294775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world datasets inevitably contain biases that arise from different
sources or conditions during data collection. Consequently, such inconsistency
itself acts as a confounding factor that disturbs the cluster analysis.
Existing methods eliminate the biases by projecting data onto the orthogonal
complement of the subspace expanded by the confounding factor before
clustering. Therein, the interested clustering factor and the confounding
factor are coarsely considered in the raw feature space, where the correlation
between the data and the confounding factor is ideally assumed to be linear for
convenient solutions. These approaches are thus limited in scope as the data in
real applications is usually complex and non-linearly correlated with the
confounding factor. This paper presents a new clustering framework named
Sanitized Clustering Against confounding Bias (SCAB), which removes the
confounding factor in the semantic latent space of complex data through a
non-linear dependence measure. To be specific, we eliminate the bias
information in the latent space by minimizing the mutual information between
the confounding factor and the latent representation delivered by Variational
Auto-Encoder (VAE). Meanwhile, a clustering module is introduced to cluster
over the purified latent representations. Extensive experiments on complex
datasets demonstrate that our SCAB achieves a significant gain in clustering
performance by removing the confounding bias. The code is available at
\url{https://github.com/EvaFlower/SCAB}.
- Abstract(参考訳): 現実世界のデータセットは必然的に、データ収集中に異なるソースや条件から生じるバイアスを含んでいる。
したがって、そのような矛盾はクラスタ分析を妨害する要因として機能する。
既存の手法では、クラスタ化前の共起因子によって拡張された部分空間の直交補空間にデータを投影することでバイアスを取り除く。
これにより、興味あるクラスタリング係数と共起係数は、データと共起係数との相関が便利な解に対して線形であると理想的に仮定される原特徴空間において粗大に考慮される。
したがって、実際のアプリケーションでのデータは通常複雑で、結合因子と非線形に相関するので、これらのアプローチは範囲が限られている。
本稿では,複合データの意味的潜在空間における結合因子を非線形依存測度で除去する,samitized clustering against confounding bias (scab) という新たなクラスタリングフレームワークを提案する。
具体的には、共起要因と変分オートエンコーダ(vae)が提供する潜在表現との相互情報を最小限にし、潜在空間におけるバイアス情報を排除する。
一方、クラスタリングモジュールは、精製された潜在表現上のクラスタに導入される。
複雑なデータセットに関する大規模な実験により、SCABは、矛盾するバイアスを取り除き、クラスタリング性能を著しく向上することを示した。
コードは \url{https://github.com/EvaFlower/SCAB} で公開されている。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Inv-SENnet: Invariant Self Expression Network for clustering under
biased data [17.25929452126843]
本研究では,各サブ空間におけるデータポイントのクラスタ化を学習しながら,不要な属性(バイアス)を共同で除去する新しいフレームワークを提案する。
合成および実世界のデータセットに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-11-13T01:19:06Z) - Towards Understanding and Mitigating Dimensional Collapse in Heterogeneous Federated Learning [112.69497636932955]
フェデレートラーニングは、プライバシを考慮したデータ共有を必要とせずに、さまざまなクライアントでモデルをトレーニングすることを目的としている。
本研究では,データの不均一性がグローバル集約モデルの表現に与える影響について検討する。
フェデレーション学習における次元的崩壊を効果的に緩和する新しい手法である sc FedDecorr を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:04:17Z) - Enhancing cluster analysis via topological manifold learning [0.3823356975862006]
クラスタ化前にデータセットのトポロジ構造を推定することで,クラスタ検出を大幅に向上させることができることを示す。
位相構造を推定するための多様体学習法UMAPと密度に基づくクラスタリング法DBSCANを組み合わせた。
論文 参考訳(メタデータ) (2022-07-01T15:53:39Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - Robust Self-Supervised Convolutional Neural Network for Subspace
Clustering and Classification [0.10152838128195464]
本稿では,自己管理型畳み込みサブスペースクラスタリングネットワーク(S2$ConvSCN)のロバストな定式化を提案する。
真の教師なしのトレーニング環境では、Robust $S2$ConvSCNは、4つのよく知られたデータセットで見られるデータと見えないデータの両方に対して、ベースラインバージョンをかなり上回っている。
論文 参考訳(メタデータ) (2020-04-03T16:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。