論文の概要: Fair Model-based Clustering
- arxiv url: http://arxiv.org/abs/2602.21509v1
- Date: Wed, 25 Feb 2026 02:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.678094
- Title: Fair Model-based Clustering
- Title(参考訳): フェアモデルに基づくクラスタリング
- Authors: Jinwon Park, Kunwoong Kim, Jihu Lee, Yongdai Kim,
- Abstract要約: FMC(Fair Model-based Clustering)と呼ばれる,有限混合モデルに基づく新しいフェアクラスタリングアルゴリズムを提案する。
FMCの主な利点は、学習可能なパラメータの数がサンプルサイズに依存しないため、容易にスケールアップできる点である。
FMCは、確率が適切に定義されている限り、非測定データに適用できる。
- 参考スコア(独自算出の注目度): 11.871560374559566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of fair clustering is to find clusters such that the proportion of sensitive attributes (e.g., gender, race, etc.) in each cluster is similar to that of the entire dataset. Various fair clustering algorithms have been proposed that modify standard K-means clustering to satisfy a given fairness constraint. A critical limitation of several existing fair clustering algorithms is that the number of parameters to be learned is proportional to the sample size because the cluster assignment of each datum should be optimized simultaneously with the cluster center, and thus scaling up the algorithms is difficult. In this paper, we propose a new fair clustering algorithm based on a finite mixture model, called Fair Model-based Clustering (FMC). A main advantage of FMC is that the number of learnable parameters is independent of the sample size and thus can be scaled up easily. In particular, mini-batch learning is possible to obtain clusters that are approximately fair. Moreover, FMC can be applied to non-metric data (e.g., categorical data) as long as the likelihood is well-defined. Theoretical and empirical justifications for the superiority of the proposed algorithm are provided.
- Abstract(参考訳): 公平なクラスタリングの目標は、各クラスタ内のセンシティブな属性(例えば、性別、人種など)の割合がデータセット全体と同じであるようなクラスタを見つけることです。
所定の公正性制約を満たすために、標準的なK平均クラスタリングを変更する様々な公正クラスタリングアルゴリズムが提案されている。
既存のフェアクラスタリングアルゴリズムの限界は、各ダタムのクラスタ割り当てをクラスタセンターと同時に最適化する必要があるため、学習すべきパラメータの数がサンプルサイズに比例しているため、アルゴリズムのスケールアップが困難である点である。
本稿では,Fair Model-based Clustering (FMC)と呼ばれる,有限混合モデルに基づく新しいフェアクラスタリングアルゴリズムを提案する。
FMCの主な利点は、学習可能なパラメータの数がサンプルサイズに依存しないため、容易にスケールアップできる点である。
特に、ミニバッチ学習は、ほぼ公平なクラスタを得ることが可能である。
さらに、FMCは、可能性が適切に定義されている限り、非メトリックデータ(例えばカテゴリデータ)に適用することができる。
提案アルゴリズムの優越性に関する理論的および実証的な正当性について述べる。
関連論文リスト
- Fair Bayesian Model-Based Clustering [3.1911375902105386]
群フェアネスは、各感度群の比率がすべてのクラスタで類似していることを保証する。
既存のグループフェアクラスタリングメソッドのほとんどは、$K$-meansクラスタリングに基づいている。
フェアベイズクラスタリング (Fair Bayesian Clustering) と呼ばれる, フェアベイズモデルに基づくクラスタリングを提案する。
論文 参考訳(メタデータ) (2025-06-15T13:16:32Z) - A Computational Approach to Improving Fairness in K-means Clustering [8.001963712764569]
一般的なK平均クラスタリングアルゴリズムは、さらなる分析や解釈の大きな弱点に悩まされる可能性がある。
この研究は、K平均クラスタリングの公平性を改善するために、2段階最適化の定式化を試みる。
ベンチマークデータセットの実験は、クラスタリングの品質に最小限の影響を伴って、フェアネスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2025-05-29T01:48:12Z) - K*-Means: A Parameter-free Clustering Algorithm [55.20132267309382]
k*-meansは、kや他のパラメータをセットする必要がない新しいクラスタリングアルゴリズムである。
最小記述長の原理を用いて、クラスタの分割とマージによって最適なクラスタ数k*を自動的に決定する。
k*-平均が収束することが保証されることを証明し、kが未知のシナリオにおいて既存のメソッドよりも著しく優れていることを実験的に証明する。
論文 参考訳(メタデータ) (2025-05-17T08:41:07Z) - Fair Clustering via Alignment [12.12426896501947]
クラスタリングにおけるアルゴリズムフェアネスは、与えられた機密属性に対して各クラスタに割り当てられたインスタンスの割合をバランスさせることを目的としている。
本稿では, 対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対
論文 参考訳(メタデータ) (2025-05-14T04:29:09Z) - Fair Clustering with Clusterlets [5.8010446129208155]
小さくて公平なクラスタセットが与えられた場合、自明なセントロイドベースのクラスタリングアルゴリズムは、公正なクラスタリングをもたらす。
適切な開始クラスタリングを見つけるのは計算コストがかかるが、複雑か任意かのどちらかである。
本稿では,単一クラスタにマッチし,公平なクラスタリングを最適化する,単純なEmphclusterletベースのファジィクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-03T17:00:54Z) - Revisiting Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [85.51611950757643]
IAC (Instance-Adaptive Clustering, インスタンス適応クラスタリング) を提案する。
IACは$ MathcalO(n, textpolylog(n) $の計算複雑性を維持しており、大規模問題に対してスケーラブルで実用的なものである。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。