論文の概要: Decorrelated Clustering with Data Selection Bias
- arxiv url: http://arxiv.org/abs/2006.15874v2
- Date: Thu, 2 Jul 2020 15:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 13:36:22.243566
- Title: Decorrelated Clustering with Data Selection Bias
- Title(参考訳): データ選択バイアスによるdecorrelated clustering
- Authors: Xiao Wang, Shaohua Fan, Kun Kuang, Chuan Shi, Jiawei Liu and Bai Wang
- Abstract要約: 本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
- 参考スコア(独自算出の注目度): 55.91842043124102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of existing clustering algorithms are proposed without considering the
selection bias in data. In many real applications, however, one cannot
guarantee the data is unbiased. Selection bias might bring the unexpected
correlation between features and ignoring those unexpected correlations will
hurt the performance of clustering algorithms. Therefore, how to remove those
unexpected correlations induced by selection bias is extremely important yet
largely unexplored for clustering. In this paper, we propose a novel
Decorrelation regularized K-Means algorithm (DCKM) for clustering with data
selection bias. Specifically, the decorrelation regularizer aims to learn the
global sample weights which are capable of balancing the sample distribution,
so as to remove unexpected correlations among features. Meanwhile, the learned
weights are combined with k-means, which makes the reweighted k-means cluster
on the inherent data distribution without unexpected correlation influence.
Moreover, we derive the updating rules to effectively infer the parameters in
DCKM. Extensive experiments results on real world datasets well demonstrate
that our DCKM algorithm achieves significant performance gains, indicating the
necessity of removing unexpected feature correlations induced by selection bias
when clustering.
- Abstract(参考訳): 既存のクラスタリングアルゴリズムのほとんどは、データの選択バイアスを考慮せずに提案されている。
しかし、実際の多くのアプリケーションでは、データが偏りがないことを保証できない。
選択バイアスは、機能間の予期せぬ相関とこれらの予期せぬ相関を無視して、クラスタリングアルゴリズムのパフォーマンスを損なう可能性がある。
したがって、選択バイアスによって引き起こされる予期せぬ相関をいかに取り除くかは極めて重要であるが、クラスタリングに関してほとんど検討されていない。
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
具体的には、デコリレーション・レギュレータは、サンプル分布のバランスをとることができるグローバルなサンプル重量を学習し、特徴間の予期せぬ相関を取り除くことを目的としている。
一方,学習重みはk-meansと組み合わされ,k-meansクラスタは予期しない相関の影響を伴わずに固有データ分布上に重み付けされる。
さらに、DCKMのパラメータを効果的に推測する更新ルールを導出する。
実世界のデータセットに対する広範囲な実験結果から,dckmアルゴリズムは有意な性能向上を達成でき,クラスタリング時に選択バイアスによって引き起こされる予期せぬ特徴相関を取り除く必要性が示された。
関連論文リスト
- Towards Robust Text Classification: Mitigating Spurious Correlations with Causal Learning [2.7813683000222653]
本稿では,因果関係へのモデル依存を軽減するために,因果相関ロバスト (CCR) を提案する。
CCRは、逆確率重み付け(IPW)損失関数とともに、反ファクト推論に基づく因果的特徴選択法を統合する。
グループラベルを持たないメソッド間でのCCRの最先端性能を示し、場合によってはグループラベルを利用するモデルと競合する。
論文 参考訳(メタデータ) (2024-11-01T21:29:07Z) - Cluster Metric Sensitivity to Irrelevant Features [0.0]
異なる種類の無関係変数が、異なる方法で$k$-meansからクラスタリングの結果にどのように影響するかを示す。
以上の結果から,シルエット係数とデイビー=ボルディンスコアは,無関係な付加機能に対して最も敏感であることが示唆された。
論文 参考訳(メタデータ) (2024-02-19T10:02:00Z) - Sanitized Clustering against Confounding Bias [38.928080236294775]
本稿では,共起バイアスに対する衛生クラスタリング(SCAB)という新しいクラスタリングフレームワークを提案する。
SCABは、非線型依存尺度を通じて、複素データのセマンティック潜在空間における境界要素を除去する。
複雑なデータセットの実験は、SCABがクラスタリングのパフォーマンスにおいて大きな向上を達成していることを示している。
論文 参考訳(メタデータ) (2023-11-02T14:10:14Z) - Causality and Independence Enhancement for Biased Node Classification [56.38828085943763]
各種グラフニューラルネットワーク(GNN)に適用可能な新しい因果性・独立性向上(CIE)フレームワークを提案する。
提案手法は,ノード表現レベルでの因果的特徴と突発的特徴を推定し,突発的相関の影響を緩和する。
我々のアプローチCIEは、GNNの性能を大幅に向上するだけでなく、最先端の debiased ノード分類法よりも優れています。
論文 参考訳(メタデータ) (2023-10-14T13:56:24Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - CADIS: Handling Cluster-skewed Non-IID Data in Federated Learning with
Clustered Aggregation and Knowledge DIStilled Regularization [3.3711670942444014]
フェデレーション学習は、エッジデバイスがデータを公開することなく、グローバルモデルを協調的にトレーニングすることを可能にする。
我々は、実際のデータセットで発見されたクラスタスキュード非IIDと呼ばれる新しいタイプの非IIDデータに取り組む。
本稿では,クラスタ間の平等を保証するアグリゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-21T02:53:37Z) - Data thinning for convolution-closed distributions [2.299914829977005]
本稿では,観測を2つ以上の独立した部分に分割する手法であるデータ薄型化を提案する。
教師なし学習手法の結果の検証には,データの薄化が有効であることを示す。
論文 参考訳(メタデータ) (2023-01-18T02:47:41Z) - Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence
Embedding [51.48582649050054]
符号化文の特徴間の相関関係を解消する表現正規化手法を提案する。
またNystromカーネル近似法であるKernel-Whiteningを提案する。
実験により,Kernel-Whiteningは分布内精度を維持しつつ,分布外データセット上でのBERTの性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-10-14T05:56:38Z) - Debiased Graph Neural Networks with Agnostic Label Selection Bias [59.61301255860836]
既存のグラフニューラルネットワーク(GNN)のほとんどは、データの選択バイアスを考慮せずに提案されている。
本稿では,デコリレーションレギュレータを区別した新しいデバイアスドグラフニューラルネットワーク(DGNN)を提案する。
DGNNは既存のGNNを強化するフレキシブルなフレームワークである。
論文 参考訳(メタデータ) (2022-01-19T16:50:29Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。