Fugu-MT 論文翻訳(概要): Sanitized Clustering against Confounding Bias

論文の概要: Sanitized Clustering against Confounding Bias

arxiv url: http://arxiv.org/abs/2311.01252v1
Date: Thu, 2 Nov 2023 14:10:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-03 13:27:25.641405
Title: Sanitized Clustering against Confounding Bias
Title（参考訳）: 汚染バイアスに対する衛生クラスタリング
Authors: Yinghua Yao, Yuangang Pan, Jing Li, Ivor W. Tsang, Xin Yao
Abstract要約: 本稿では,共起バイアスに対する衛生クラスタリング(SCAB)という新しいクラスタリングフレームワークを提案する。 SCABは、非線型依存尺度を通じて、複素データのセマンティック潜在空間における境界要素を除去する。複雑なデータセットの実験は、SCABがクラスタリングのパフォーマンスにおいて大きな向上を達成していることを示している。
参考スコア（独自算出の注目度）: 38.928080236294775
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Real-world datasets inevitably contain biases that arise from different sources or conditions during data collection. Consequently, such inconsistency itself acts as a confounding factor that disturbs the cluster analysis. Existing methods eliminate the biases by projecting data onto the orthogonal complement of the subspace expanded by the confounding factor before clustering. Therein, the interested clustering factor and the confounding factor are coarsely considered in the raw feature space, where the correlation between the data and the confounding factor is ideally assumed to be linear for convenient solutions. These approaches are thus limited in scope as the data in real applications is usually complex and non-linearly correlated with the confounding factor. This paper presents a new clustering framework named Sanitized Clustering Against confounding Bias (SCAB), which removes the confounding factor in the semantic latent space of complex data through a non-linear dependence measure. To be specific, we eliminate the bias information in the latent space by minimizing the mutual information between the confounding factor and the latent representation delivered by Variational Auto-Encoder (VAE). Meanwhile, a clustering module is introduced to cluster over the purified latent representations. Extensive experiments on complex datasets demonstrate that our SCAB achieves a significant gain in clustering performance by removing the confounding bias. The code is available at \url{https://github.com/EvaFlower/SCAB}.
Abstract（参考訳）: 現実世界のデータセットは必然的に、データ収集中に異なるソースや条件から生じるバイアスを含んでいる。したがって、そのような矛盾はクラスタ分析を妨害する要因として機能する。既存の手法では、クラスタ化前の共起因子によって拡張された部分空間の直交補空間にデータを投影することでバイアスを取り除く。これにより、興味あるクラスタリング係数と共起係数は、データと共起係数との相関が便利な解に対して線形であると理想的に仮定される原特徴空間において粗大に考慮される。したがって、実際のアプリケーションでのデータは通常複雑で、結合因子と非線形に相関するので、これらのアプローチは範囲が限られている。本稿では,複合データの意味的潜在空間における結合因子を非線形依存測度で除去する,samitized clustering against confounding bias (scab) という新たなクラスタリングフレームワークを提案する。具体的には、共起要因と変分オートエンコーダ(vae)が提供する潜在表現との相互情報を最小限にし、潜在空間におけるバイアス情報を排除する。一方、クラスタリングモジュールは、精製された潜在表現上のクラスタに導入される。複雑なデータセットに関する大規模な実験により、SCABは、矛盾するバイアスを取り除き、クラスタリング性能を著しく向上することを示した。コードは \url{https://github.com/EvaFlower/SCAB} で公開されている。

関連論文リスト

Subspace Clustering on Incomplete Data with Self-Supervised Contrastive Learning [0.7161783472741748]
サブスペースクラスタリングは、低次元のサブスペースの結合にあるデータポイントをグループ化することを目的としている。現在の手法では、完全に観測されたデータを仮定し、欠落したエントリを持つ現実世界のシナリオにおける有効性を制限している。不完全なデータをクラスタリングするために設計されたContrastive Subspace Clustering (CSC)を提案する。
論文参考訳（メタデータ） (2026-01-30T19:24:48Z)
Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。 8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文参考訳（メタデータ） (2026-01-03T11:37:46Z)
Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-24T08:59:51Z)
Sampling-enabled scalable manifold learning unveils discriminative cluster structure of high-dimensional data [8.507955301076633]
大規模・高次元データに対して一様および識別的埋め込み(SUDE)を可能にする,サンプリングベースでスケーラブルな多様体学習手法を提案する。合成データセットと実世界のベンチマークにおけるSUDEの有効性を実証的に検証し, 単細胞データの解析と心電図信号の異常検出に応用した。
論文参考訳（メタデータ） (2024-01-02T08:43:06Z)
Inv-SENnet: Invariant Self Expression Network for clustering under biased data [17.25929452126843]
本研究では,各サブ空間におけるデータポイントのクラスタ化を学習しながら,不要な属性(バイアス)を共同で除去する新しいフレームワークを提案する。合成および実世界のデータセットに対する実験結果から,本手法の有効性が示された。
論文参考訳（メタデータ） (2022-11-13T01:19:06Z)
Towards Understanding and Mitigating Dimensional Collapse in Heterogeneous Federated Learning [112.69497636932955]
フェデレートラーニングは、プライバシを考慮したデータ共有を必要とせずに、さまざまなクライアントでモデルをトレーニングすることを目的としている。本研究では,データの不均一性がグローバル集約モデルの表現に与える影響について検討する。フェデレーション学習における次元的崩壊を効果的に緩和する新しい手法である sc FedDecorr を提案する。
論文参考訳（メタデータ） (2022-10-01T09:04:17Z)
Enhancing cluster analysis via topological manifold learning [0.3823356975862006]
クラスタ化前にデータセットのトポロジ構造を推定することで,クラスタ検出を大幅に向上させることができることを示す。位相構造を推定するための多様体学習法UMAPと密度に基づくクラスタリング法DBSCANを組み合わせた。
論文参考訳（メタデータ） (2022-07-01T15:53:39Z)
Learning Bias-Invariant Representation by Cross-Sample Mutual Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文参考訳（メタデータ） (2021-08-11T21:17:02Z)
Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文参考訳（メタデータ） (2020-07-30T05:48:48Z)
Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。 DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文参考訳（メタデータ） (2020-06-29T08:55:50Z)
Robust Self-Supervised Convolutional Neural Network for Subspace Clustering and Classification [0.10152838128195464]
本稿では,自己管理型畳み込みサブスペースクラスタリングネットワーク(S2$ConvSCN)のロバストな定式化を提案する。真の教師なしのトレーニング環境では、Robust $S2$ConvSCNは、4つのよく知られたデータセットで見られるデータと見えないデータの両方に対して、ベースラインバージョンをかなり上回っている。
論文参考訳（メタデータ） (2020-04-03T16:07:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。