論文の概要: Towards Fair Representation: Clustering and Consensus
- arxiv url: http://arxiv.org/abs/2506.08673v1
- Date: Tue, 10 Jun 2025 10:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.284793
- Title: Towards Fair Representation: Clustering and Consensus
- Title(参考訳): 公正表現に向けて:クラスタリングとコンセンサス
- Authors: Diptarka Chakraborty, Kushagra Chatterjee, Debarati Das, Tien Long Nguyen, Romina Nobahari,
- Abstract要約: 特定の保護された属性に関して、代表的であるだけでなく公平でもあるコンセンサスクラスタリングを見つけます。
調査の一環として,既存のクラスタリングを最小限に修正して公平性を実現する方法について検討した。
我々は,同値なグループ表現とニア線形時間定数係数近似アルゴリズムを用いたデータセットの最適アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 1.7243216387069678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consensus clustering, a fundamental task in machine learning and data analysis, aims to aggregate multiple input clusterings of a dataset, potentially based on different non-sensitive attributes, into a single clustering that best represents the collective structure of the data. In this work, we study this fundamental problem through the lens of fair clustering, as introduced by Chierichetti et al. [NeurIPS'17], which incorporates the disparate impact doctrine to ensure proportional representation of each protected group in the dataset within every cluster. Our objective is to find a consensus clustering that is not only representative but also fair with respect to specific protected attributes. To the best of our knowledge, we are the first to address this problem and provide a constant-factor approximation. As part of our investigation, we examine how to minimally modify an existing clustering to enforce fairness -- an essential postprocessing step in many clustering applications that require fair representation. We develop an optimal algorithm for datasets with equal group representation and near-linear time constant factor approximation algorithms for more general scenarios with different proportions of two group sizes. We complement our approximation result by showing that the problem is NP-hard for two unequal-sized groups. Given the fundamental nature of this problem, we believe our results on Closest Fair Clustering could have broader implications for other clustering problems, particularly those for which no prior approximation guarantees exist for their fair variants.
- Abstract(参考訳): 機械学習とデータ分析の基本的なタスクであるConsensus Clusteringは、データセットの複数の入力クラスタリングを集約することを目的としている。
本研究では, 各クラスタ内のデータセットにおいて, 各保護されたグループの比例表現を保証するために, 異なる影響原理を取り入れた, Chierichetti et al [NeurIPS'17] によって導入された, 公正クラスタリングのレンズを通して, この根本的な問題を考察する。
我々の目的は、代表的であるだけでなく、特定の保護属性に関して公平であるコンセンサスクラスタリングを見つけることである。
我々の知る限りでは、私たちはこの問題に最初に取り組み、定数係数近似を提供する。
調査の一環として、フェアネスを強制するために既存のクラスタリングを最小限に修正する方法を検討します。
2つのグループサイズに比例するより一般的なシナリオに対して、同値なグループ表現とニア線形時間定数係数近似アルゴリズムを用いたデータセットの最適アルゴリズムを開発する。
2つの不等サイズの群に対して問題はNPハードであることを示し、近似結果を補完する。
この問題の基本的な性質を考えると、我々のClosest Fair Clusteringの結果は、他のクラスタリング問題、特にそれ以前の近似がフェアな変種に対して存在しないものに対して、より広範な意味を持つ可能性があると信じている。
関連論文リスト
- Accelerating Spectral Clustering under Fairness Constraints [56.865810822418744]
本研究では,Fair SC問題を凸関数(DC)フレームワークの差内にキャストすることで,フェアスペクトルクラスタリング(Fair SC)のための新しい効率的な手法を提案する。
本研究では,各サブプロブレムを効率よく解き,計算効率が先行処理よりも高いことを示す。
論文 参考訳(メタデータ) (2025-06-09T18:46:27Z) - Robust Fair Clustering with Group Membership Uncertainty Sets [31.29773979737976]
本研究では,各集団の集団レベルでの表現に近づき,各集団が制約される正準公正クラスタリング問題について検討する。
簡単なノイズモデルを導入し、意思決定者によって与えられるパラメータを少数必要とします。
本稿では,不規則性保証を証明可能なフェアクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-02T03:11:31Z) - Revisiting Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [69.15976031704687]
IAC (Instance-Adaptive Clustering, インスタンス適応クラスタリング) を提案する。
IACは$ MathcalO(n, textpolylog(n) $の計算複雑性を維持しており、大規模問題に対してスケーラブルで実用的なものである。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - One-step Multi-view Clustering with Diverse Representation [47.41455937479201]
本稿では,多視点学習と$k$-meansを統合フレームワークに組み込んだ一段階のマルチビュークラスタリングを提案する。
そこで本研究では,効率の良い最適化アルゴリズムを開発し,その解法について述べる。
論文 参考訳(メタデータ) (2023-06-08T02:52:24Z) - Cluster-level Group Representativity Fairness in $k$-means Clustering [3.420467786581458]
クラスタリングアルゴリズムは、異なるグループが異なるクラスタ内で不利になるようにクラスタを生成することができる。
我々は,古典的アルゴリズムに先駆けて,セントロイドクラスタリングパラダイムに基づくクラスタリングアルゴリズムを開発した。
本手法はクラスタレベルの表現性フェアネスを,クラスタのコヒーレンスに低い影響で向上させるのに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-29T22:02:28Z) - Fair Labeled Clustering [28.297893914525517]
クラスタリングのダウンストリーム適用と,そのような設定に対してグループフェアネスをどのように確保するかを検討する。
このような問題に対するアルゴリズムを提供し、グループフェアクラスタリングにおけるNPハードのアルゴリズムとは対照的に、効率的な解が可能であることを示す。
また、距離空間における中心位置に関係なく、意思決定者が自由にクラスタにラベルを割り当てることができるような、モチベーションのよい代替設定についても検討する。
論文 参考訳(メタデータ) (2022-05-28T07:07:12Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。