論文の概要: Fair Clustering Using Antidote Data
- arxiv url: http://arxiv.org/abs/2106.00600v1
- Date: Tue, 1 Jun 2021 16:07:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:11:17.939196
- Title: Fair Clustering Using Antidote Data
- Title(参考訳): 解毒剤データを用いたフェアクラスタリング
- Authors: Anshuman Chhabra, Adish Singla, Prasant Mohapatra
- Abstract要約: クラスタリングにおける公正性に対する代替的アプローチとして,アンチドテデータと呼ばれる少数のデータポイントで元のデータセットを拡大する手法を提案する。
我々のアルゴリズムは、他の最先端のフェアクラスタリングアルゴリズムと比較して、フェアネスコストと競合クラスタリング性能を低くする。
- 参考スコア(独自算出の注目度): 35.40427659749882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering algorithms are widely utilized for many modern data science
applications. This motivates the need to make outputs of clustering algorithms
fair. Traditionally, new fair algorithmic variants to clustering algorithms are
developed for specific notions of fairness. However, depending on the
application context, different definitions of fairness might need to be
employed. As a result, new algorithms and analysis need to be proposed for each
combination of clustering algorithm and fairness definition. Additionally, each
new algorithm would need to be reimplemented for deployment in a real-world
system. Hence, we propose an alternate approach to fairness in clustering where
we augment the original dataset with a small number of data points, called
antidote data. When clustering is undertaken on this new dataset, the output is
fair, for the chosen clustering algorithm and fairness definition. We formulate
this as a general bi-level optimization problem which can accommodate any
center-based clustering algorithms and fairness notions. We then categorize
approaches for solving this bi-level optimization for different problem
settings. Extensive experiments on different clustering algorithms and fairness
notions show that our algorithms can achieve desired levels of fairness on many
real-world datasets with a very small percentage of antidote data added. We
also find that our algorithms achieve lower fairness costs and competitive
clustering performance compared to other state-of-the-art fair clustering
algorithms.
- Abstract(参考訳): クラスタリングアルゴリズムは多くの現代のデータサイエンスアプリケーションに広く利用されている。
これにより、クラスタリングアルゴリズムの出力を公平にする必要がある。
伝統的に、クラスタリングアルゴリズムに対する新しいフェアアルゴリズムの変種は、フェアネスの特定の概念のために開発されている。
しかし、アプリケーションコンテキストによっては、フェアネスの定義が異なる場合もあります。
その結果、クラスタリングアルゴリズムとフェアネス定義の組み合わせ毎に、新しいアルゴリズムと分析を提案する必要がある。
さらに、新しいアルゴリズムは現実世界のシステムにデプロイするために再実装される必要がある。
したがって、クラスタリングにおける公正性に対する代替的なアプローチとして、アンチドテデータと呼ばれる少数のデータポイントで元のデータセットを増強する手法を提案する。
この新しいデータセット上でクラスタリングが行われると、選択されたクラスタリングアルゴリズムとフェアネス定義に対して出力が公正になる。
我々はこれを、任意の中心的クラスタリングアルゴリズムと公平性の概念に対応できる一般的な二段階最適化問題として定式化する。
次に、異なる問題設定に対するこの二段階最適化のアプローチを分類する。
異なるクラスタリングアルゴリズムと公平性の概念に関する広範囲な実験により、我々のアルゴリズムは、非常に少ない反ドートデータを追加することで、多くの現実世界のデータセットで所望の公平性を達成できることが示された。
また,本アルゴリズムは,他の最先端のフェアクラスタリングアルゴリズムと比較して,フェアネスコストと競合クラスタリング性能の低減を実現する。
関連論文リスト
- From Large to Small Datasets: Size Generalization for Clustering
Algorithm Selection [12.993073967843292]
我々は,未知の地下構造クラスタリングを用いて,半教師付き環境で問題を研究する。
本稿では,クラスタリングアルゴリズムの精度向上のためのサイズ一般化の概念を提案する。
データセット全体においてどのアルゴリズムが最適かを特定するために、データの5%をサブサンプルとして使用しています。
論文 参考訳(メタデータ) (2024-02-22T06:53:35Z) - A Rapid Review of Clustering Algorithms [5.46715422237599]
クラスタリングアルゴリズムは、データ内の固有のパターンと類似性に基づいて、データをグループまたはクラスタにまとめることを目的としている。
それらは、マーケティングやeコマース、ヘルスケア、データ組織と分析、ソーシャルメディアなど、今日の生活において重要な役割を担っている。
既存のクラスタリングアルゴリズムを分析し、5つの異なる次元で主要なアルゴリズムを分類した。
論文 参考訳(メタデータ) (2024-01-14T23:19:53Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Fairness Degrading Adversarial Attacks Against Clustering Algorithms [35.40427659749882]
そこで本研究では,k-medianクラスタリングのためのフェアネス劣化攻撃アルゴリズムを提案する。
生成した対数サンプルの追加により、フェアネス値が大幅に低下することが判明した。
論文 参考訳(メタデータ) (2021-10-22T19:10:27Z) - Efficient Algorithms For Fair Clustering with a New Fairness Notion [5.21410307583181]
我々は、Chierichettiらによって最初に導入されたフェアクラスタリングの問題を再考する。
既存のクラスタリングのソリューションはスケーラビリティが低いか、クラスタリングの目的と公平性のトレードオフを最適に達成できないかのいずれかです。
バランス特性を厳密に一般化し、細粒度効率とフェアネストレードオフを可能にする、$tau$-fair Fairnessと呼ばれる新しいフェアネスの概念を提案する。
論文 参考訳(メタデータ) (2021-09-02T04:52:49Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - Fair Hierarchical Clustering [92.03780518164108]
従来のクラスタリングにおける過剰表現を緩和する公平性の概念を定義する。
我々のアルゴリズムは、目的に対して無視できない損失しか持たない、公平な階層的なクラスタリングを見つけることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T01:05:11Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z) - Fair Algorithms for Hierarchical Agglomerative Clustering [17.66340013352806]
Hierarchical Agglomerative Clustering (HAC)アルゴリズムは、現代のデータサイエンスで広く利用されている。
たとえデータセットが特定の保護されたグループに対するバイアスを含むとしても、これらのアルゴリズムが公平であることを保証することが不可欠である。
公平性制約を強制するHACを行うための公正アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-07T01:41:56Z) - Fair Correlation Clustering [92.15492066925977]
相関クラスタリングの近似アルゴリズムは,いくつかの重要なフェアネス制約の下で得られる。
相関クラスタリングに対する公平な解は、最先端の(不公平な)アルゴリズムと比較して、コストを抑えながら得られることを示す。
論文 参考訳(メタデータ) (2020-02-06T14:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。