論文の概要: Fast and effective algorithms for fair clustering at scale
- arxiv url: http://arxiv.org/abs/2605.13759v1
- Date: Wed, 13 May 2026 16:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.185155
- Title: Fast and effective algorithms for fair clustering at scale
- Title(参考訳): 大規模クラスタリングのための高速かつ効率的なアルゴリズム
- Authors: Claudio Mantuano, Manuel Kammermann, Philipp Baumann,
- Abstract要約: 保護されたグループに属するオブジェクトに対する公平なクラスタリング問題に対処する。
目的は、対象物とクラスタの中心の間の2乗ユークリッド距離の和として定義されるクラスタリングコストを最小化することである。
本稿では,公正クラスタリングのための一般的なフレームワークを提案し,コスト対公正トレードオフを正確に制御し,それに基づいて3つを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering is an unsupervised machine learning task that consists of identifying groups of similar objects. It has numerous applications and is increasingly used in fairness-sensitive domains where objects represent individuals, such as customers, employees, or students. We address a fair clustering problem in which objects belong to protected groups. The problem consists of partitioning the objects into a predefined number of clusters while attaining a user-defined target level of fairness, meaning that each protected group is sufficiently represented in each cluster. The objective is to minimize the clustering cost, defined as the sum of squared Euclidean distances between the objects and the centers of their clusters. Since clustering cost and fairness are generally in conflict, managing the trade-off between them is essential in practical applications. Existing methods provide limited control over this trade-off and either fail to scale to large datasets or, when they scale, produce low-quality solutions. We propose a general framework for fair clustering that provides precise control over the cost-fairness trade-off and introduce three heuristics based on it. The first heuristic focuses on solution quality and the flexibility to incorporate additional constraints, the second improves scalability while retaining high solution quality, and the third is designed for maximum scalability, producing solutions for instances with millions of objects in seconds. The proposed heuristics outperform existing approaches in comprehensive numerical experiments on benchmark datasets. The source code of our heuristics and instructions for reproducing the experiments are publicly available on GitHub.
- Abstract(参考訳): クラスタリングは、類似したオブジェクトのグループを識別する、教師なしの機械学習タスクである。
多数のアプリケーションがあり、顧客や従業員、あるいは学生といった個人を表すオブジェクトのフェアネスに敏感なドメインでの利用が増えている。
保護されたグループに属するオブジェクトに対する公平なクラスタリング問題に対処する。
問題は、オブジェクトを予め定義された数のクラスタに分割すると同時に、ユーザが定義した目標の公平度を達成し、各保護されたグループが各クラスタで十分に表現されていることを意味する。
目的は、対象物とクラスタの中心の間の2乗ユークリッド距離の和として定義されるクラスタリングコストを最小化することである。
クラスタリングコストと公平性は一般的に対立しているため、それらの間のトレードオフを管理することは、実践的な応用において不可欠である。
既存の方法は、このトレードオフを限定的に制御し、大規模なデータセットにスケールできないか、あるいはスケールした場合、低品質のソリューションを生成する。
本稿では, 公正クラスタリングのための一般的なフレームワークを提案し, コスト対空トレードオフを正確に制御し, それらに基づく3つのヒューリスティックスを導入する。
第1のヒューリスティックは、追加の制約を組み込むためのソリューション品質と柔軟性に焦点を当て、第2の方法は、高いソリューション品質を維持しながらスケーラビリティを改善し、第3の方法は、最大限のスケーラビリティのために設計され、数百万のオブジェクトを数秒でインスタンス向けにソリューションを生成する。
提案したヒューリスティックスは、ベンチマークデータセットの包括的な数値実験において、既存のアプローチよりも優れている。
私たちのヒューリスティックスのソースコードと実験を再現するための指示はGitHubで公開されています。
関連論文リスト
- ESMC: MLLM-Based Embedding Selection for Explainable Multiple Clustering [79.69917150582633]
MLLM(Multi-modal large language model)は、ユーザ主導のクラスタリングを実現するために利用することができる。
本手法はまず,MLLMのテキストトークンの隠蔽状態が対応する特徴と強く関連していることを明らかにする。
また、擬似ラベル学習を付加した軽量クラスタリングヘッドを採用し、クラスタリング精度を大幅に向上させた。
論文 参考訳(メタデータ) (2025-11-30T04:36:51Z) - Parameter-Free Clustering via Self-Supervised Consensus Maximization (Extended Version) [50.41628860536753]
本稿では,SCMax と呼ばれる自己教師型コンセンサス最大化による,新しい完全パラメータフリークラスタリングフレームワークを提案する。
本フレームワークは,階層的なクラスタリングとクラスタ評価を単一の統合プロセスで行う。
論文 参考訳(メタデータ) (2025-11-12T11:17:17Z) - Towards Fair Representation: Clustering and Consensus [1.7243216387069678]
特定の保護された属性に関して、代表的であるだけでなく公平でもあるコンセンサスクラスタリングを見つけます。
調査の一環として,既存のクラスタリングを最小限に修正して公平性を実現する方法について検討した。
我々は,同値なグループ表現とニア線形時間定数係数近似アルゴリズムを用いたデータセットの最適アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-06-10T10:33:21Z) - A3S: A General Active Clustering Method with Pairwise Constraints [66.74627463101837]
A3Sは、適応クラスタリングアルゴリズムによって得られる初期クラスタ結果に対して、戦略的にアクティブクラスタリングを調整する。
さまざまな実世界のデータセットにわたる広範な実験において、A3Sは、人間のクエリを著しく少なくして、望ましい結果を達成する。
論文 参考訳(メタデータ) (2024-07-14T13:37:03Z) - Socially Fair Center-based and Linear Subspace Clustering [8.355270405285909]
センターベースのクラスタリングと線形サブスペースクラスタリングは、現実世界のデータを小さなクラスタに分割する一般的なテクニックである。
異なる敏感なグループに対する1点当たりのクラスタリングコストは、公平性に関連する害をもたらす可能性がある。
本稿では,社会的に公平なセンタベースのクラスタリングと線形サブスペースクラスタリングを解決するための統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-22T07:10:17Z) - Fair Clustering Under a Bounded Cost [33.50262066253557]
クラスタリングは、データセットをメトリクス空間内の近くのポイントで構成されるクラスタに分割する、基本的な教師なしの学習問題である。
最近の変種であるフェアクラスタリング(英語版)は、各点とその群のメンバーシップを表す色を関連付け、各色が群フェアネスを満たすために各クラスタに等しい表現(およそ)を持つことを要求する。
我々は,集団の実用的目的と集団の平等的目的,および集団の平等的目的を一般化するグループ・レキシミン的目的の2つの公正性を考察する。
論文 参考訳(メタデータ) (2021-06-14T08:47:36Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。