論文の概要: A Computational Approach to Improving Fairness in K-means Clustering
- arxiv url: http://arxiv.org/abs/2505.22984v1
- Date: Thu, 29 May 2025 01:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.611612
- Title: A Computational Approach to Improving Fairness in K-means Clustering
- Title(参考訳): K平均クラスタリングにおける公平性向上のための計算的アプローチ
- Authors: Guancheng Zhou, Haiping Xu, Hongkang Xu, Chenyu Li, Donghui Yan,
- Abstract要約: 一般的なK平均クラスタリングアルゴリズムは、さらなる分析や解釈の大きな弱点に悩まされる可能性がある。
この研究は、K平均クラスタリングの公平性を改善するために、2段階最適化の定式化を試みる。
ベンチマークデータセットの実験は、クラスタリングの品質に最小限の影響を伴って、フェアネスを大幅に改善したことを示している。
- 参考スコア(独自算出の注目度): 8.001963712764569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The popular K-means clustering algorithm potentially suffers from a major weakness for further analysis or interpretation. Some cluster may have disproportionately more (or fewer) points from one of the subpopulations in terms of some sensitive variable, e.g., gender or race. Such a fairness issue may cause bias and unexpected social consequences. This work attempts to improve the fairness of K-means clustering with a two-stage optimization formulation--clustering first and then adjust cluster membership of a small subset of selected data points. Two computationally efficient algorithms are proposed in identifying those data points that are expensive for fairness, with one focusing on nearest data points outside of a cluster and the other on highly 'mixed' data points. Experiments on benchmark datasets show substantial improvement on fairness with a minimal impact to clustering quality. The proposed algorithms can be easily extended to a broad class of clustering algorithms or fairness metrics.
- Abstract(参考訳): 一般的なK平均クラスタリングアルゴリズムは、さらなる分析や解釈の大きな弱点に悩まされる可能性がある。
あるクラスタは、ある敏感な変数、例えば、性別または人種の観点から、サブポピュレーションの1つから不均等に多くの(またはより少ない)ポイントを持つかもしれない。
このような公平な問題は、偏見と予期せぬ社会的結果を引き起こす可能性がある。
本研究は,2段階最適化によるクラスタリングの公平性向上を目的として,まずクラスタリングを行い,次に選択したデータポイントの小さなサブセットのクラスタメンバシップを調整する。
2つの計算効率の良いアルゴリズムは、公平性のために高価であるこれらのデータポイントを特定するために提案され、一方はクラスタ外の最も近いデータポイントと、他方は高度に「混合された」データポイントに焦点を当てている。
ベンチマークデータセットの実験は、クラスタリングの品質に最小限の影響を伴って、フェアネスを大幅に改善したことを示している。
提案アルゴリズムは、クラスタリングアルゴリズムやフェアネスメトリクスの幅広いクラスに容易に拡張できる。
関連論文リスト
- Fair Clustering via Alignment [3.5845787949988592]
クラスタリングにおけるアルゴリズムフェアネスは、与えられた機密属性に対して各クラスタに割り当てられたインスタンスの割合をバランスさせることを目的としている。
本稿では, 対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対
論文 参考訳(メタデータ) (2025-05-14T04:29:09Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Cluster-level Group Representativity Fairness in $k$-means Clustering [3.420467786581458]
クラスタリングアルゴリズムは、異なるグループが異なるクラスタ内で不利になるようにクラスタを生成することができる。
我々は,古典的アルゴリズムに先駆けて,セントロイドクラスタリングパラダイムに基づくクラスタリングアルゴリズムを開発した。
本手法はクラスタレベルの表現性フェアネスを,クラスタのコヒーレンスに低い影響で向上させるのに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-29T22:02:28Z) - Socially Fair Center-based and Linear Subspace Clustering [8.355270405285909]
センターベースのクラスタリングと線形サブスペースクラスタリングは、現実世界のデータを小さなクラスタに分割する一般的なテクニックである。
異なる敏感なグループに対する1点当たりのクラスタリングコストは、公平性に関連する害をもたらす可能性がある。
本稿では,社会的に公平なセンタベースのクラスタリングと線形サブスペースクラスタリングを解決するための統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-22T07:10:17Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。