論文の概要: Fair Minimum Representation Clustering via Integer Programming
- arxiv url: http://arxiv.org/abs/2409.02963v1
- Date: Wed, 4 Sep 2024 00:13:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 01:16:35.453027
- Title: Fair Minimum Representation Clustering via Integer Programming
- Title(参考訳): 整数プログラミングによる公平な最小表現クラスタリング
- Authors: Connor Lawless, Oktay Gunluk,
- Abstract要約: クラスタリングは、データをクラスタの集合に分割することを目的とした教師なしの学習タスクである。
本稿では,各群が最小表現レベルを持つ必要があるという制約を伴って,k平均とkメダニアンのクラスタリング問題を考察する。
フェアネス制約を直接組み込んだ,MiniReLと呼ばれる交代最小化アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering is an unsupervised learning task that aims to partition data into a set of clusters. In many applications, these clusters correspond to real-world constructs (e.g., electoral districts, playlists, TV channels) whose benefit can only be attained by groups when they reach a minimum level of representation (e.g., 50\% to elect their desired candidate). In this paper, we study the k-means and k-medians clustering problems with the additional constraint that each group (e.g., demographic group) must have a minimum level of representation in at least a given number of clusters. We formulate the problem through a mixed-integer optimization framework and present an alternating minimization algorithm, called MiniReL, that directly incorporates the fairness constraints. While incorporating the fairness criteria leads to an NP-Hard assignment problem within the algorithm, we provide computational approaches that make the algorithm practical even for large datasets. Numerical results show that the approach is able to create fairer clusters with practically no increase in the clustering cost across standard benchmark datasets.
- Abstract(参考訳): クラスタリングは、データをクラスタの集合に分割することを目的とした教師なしの学習タスクである。
多くのアプリケーションにおいて、これらのクラスタは実世界の構成(例えば、選挙地区、プレイリスト、テレビチャンネル)に対応しており、最小レベルの表現(例えば、50\%)に達すると、グループによってのみ利益が得られる。
本稿では、各群(例えば、人口統計群)が少なくとも与えられたクラスタ数の最小表現レベルを持つ必要があるという追加の制約を伴って、k平均とkメディアンのクラスタリング問題を考察する。
混合整数最適化フレームワークを用いて問題を定式化し, フェアネス制約を直接組み込んだ最小化アルゴリズムMiniReLを提案する。
公平性基準を取り入れたアルゴリズムではNP-Hardの割り当て問題が発生するが、大規模データセットにおいてもアルゴリズムを実用的なものにするための計算手法を提供する。
数値的な結果から,標準的なベンチマークデータセット間のクラスタリングコストを実質的に増加させることなく,より公平なクラスタを構築することが可能であることが示唆された。
関連論文リスト
- From Large to Small Datasets: Size Generalization for Clustering
Algorithm Selection [12.993073967843292]
我々は,未知の地下構造クラスタリングを用いて,半教師付き環境で問題を研究する。
本稿では,クラスタリングアルゴリズムの精度向上のためのサイズ一般化の概念を提案する。
データセット全体においてどのアルゴリズムが最適かを特定するために、データの5%をサブサンプルとして使用しています。
論文 参考訳(メタデータ) (2024-02-22T06:53:35Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Revisiting Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [69.15976031704687]
IAC (Instance-Adaptive Clustering, インスタンス適応クラスタリング) を提案する。
IACは$ MathcalO(n, textpolylog(n) $の計算複雑性を維持しており、大規模問題に対してスケーラブルで実用的なものである。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Fair Minimum Representation Clustering [0.0]
クラスタリングは、データをクラスタの集合に分割することを目的とした教師なしの学習タスクである。
一般的な$k$-meansアルゴリズムであるロイドのアルゴリズムが不公平な結果をもたらすことを示す。
フェアネス制約を直接組み込む、ミニReLと呼ばれるロイドのアルゴリズムの変種を示す。
論文 参考訳(メタデータ) (2023-02-06T23:16:38Z) - Socially Fair Center-based and Linear Subspace Clustering [8.355270405285909]
センターベースのクラスタリングと線形サブスペースクラスタリングは、現実世界のデータを小さなクラスタに分割する一般的なテクニックである。
異なる敏感なグループに対する1点当たりのクラスタリングコストは、公平性に関連する害をもたらす可能性がある。
本稿では,社会的に公平なセンタベースのクラスタリングと線形サブスペースクラスタリングを解決するための統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-22T07:10:17Z) - Fair Labeled Clustering [28.297893914525517]
クラスタリングのダウンストリーム適用と,そのような設定に対してグループフェアネスをどのように確保するかを検討する。
このような問題に対するアルゴリズムを提供し、グループフェアクラスタリングにおけるNPハードのアルゴリズムとは対照的に、効率的な解が可能であることを示す。
また、距離空間における中心位置に関係なく、意思決定者が自由にクラスタにラベルを割り当てることができるような、モチベーションのよい代替設定についても検討する。
論文 参考訳(メタデータ) (2022-05-28T07:07:12Z) - Clustering to the Fewest Clusters Under Intra-Cluster Dissimilarity
Constraints [0.0]
均等なクラスタリングは、密度も期待されるクラスの数にも依存せず、相似性の閾値にも依存します。
このクラスタリング問題に対する様々な実践的ソリューション間のトレードオフを特定するために,適切なクラスタリングアルゴリズムをレビューし,評価する。
論文 参考訳(メタデータ) (2021-09-28T12:02:18Z) - Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。
クエリを少なくすることで、問題の解決が容易になる。
論文 参考訳(メタデータ) (2021-06-04T02:32:26Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。