Fugu-MT 論文翻訳(概要): Fair Minimum Representation Clustering via Integer Programming

論文の概要: Fair Minimum Representation Clustering via Integer Programming

arxiv url: http://arxiv.org/abs/2409.02963v1
Date: Wed, 4 Sep 2024 00:13:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-07 01:16:35.453027
Title: Fair Minimum Representation Clustering via Integer Programming
Title（参考訳）: 整数プログラミングによる公平な最小表現クラスタリング
Authors: Connor Lawless, Oktay Gunluk,
Abstract要約: クラスタリングは、データをクラスタの集合に分割することを目的とした教師なしの学習タスクである。本稿では,各群が最小表現レベルを持つ必要があるという制約を伴って,k平均とkメダニアンのクラスタリング問題を考察する。フェアネス制約を直接組み込んだ,MiniReLと呼ばれる交代最小化アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 0.6906005491572401
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Clustering is an unsupervised learning task that aims to partition data into a set of clusters. In many applications, these clusters correspond to real-world constructs (e.g., electoral districts, playlists, TV channels) whose benefit can only be attained by groups when they reach a minimum level of representation (e.g., 50\% to elect their desired candidate). In this paper, we study the k-means and k-medians clustering problems with the additional constraint that each group (e.g., demographic group) must have a minimum level of representation in at least a given number of clusters. We formulate the problem through a mixed-integer optimization framework and present an alternating minimization algorithm, called MiniReL, that directly incorporates the fairness constraints. While incorporating the fairness criteria leads to an NP-Hard assignment problem within the algorithm, we provide computational approaches that make the algorithm practical even for large datasets. Numerical results show that the approach is able to create fairer clusters with practically no increase in the clustering cost across standard benchmark datasets.
Abstract（参考訳）: クラスタリングは、データをクラスタの集合に分割することを目的とした教師なしの学習タスクである。多くのアプリケーションにおいて、これらのクラスタは実世界の構成(例えば、選挙地区、プレイリスト、テレビチャンネル)に対応しており、最小レベルの表現(例えば、50\%)に達すると、グループによってのみ利益が得られる。本稿では、各群(例えば、人口統計群)が少なくとも与えられたクラスタ数の最小表現レベルを持つ必要があるという追加の制約を伴って、k平均とkメディアンのクラスタリング問題を考察する。混合整数最適化フレームワークを用いて問題を定式化し, フェアネス制約を直接組み込んだ最小化アルゴリズムMiniReLを提案する。公平性基準を取り入れたアルゴリズムではNP-Hardの割り当て問題が発生するが、大規模データセットにおいてもアルゴリズムを実用的なものにするための計算手法を提供する。数値的な結果から,標準的なベンチマークデータセット間のクラスタリングコストを実質的に増加させることなく,より公平なクラスタを構築することが可能であることが示唆された。

関連論文リスト

Fair Model-based Clustering [11.871560374559566]
FMC(Fair Model-based Clustering)と呼ばれる,有限混合モデルに基づく新しいフェアクラスタリングアルゴリズムを提案する。 FMCの主な利点は、学習可能なパラメータの数がサンプルサイズに依存しないため、容易にスケールアップできる点である。 FMCは、確率が適切に定義されている限り、非測定データに適用できる。
論文参考訳（メタデータ） (2026-02-25T02:41:16Z)
Towards Fair Representation: Clustering and Consensus [1.7243216387069678]
特定の保護された属性に関して、代表的であるだけでなく公平でもあるコンセンサスクラスタリングを見つけます。調査の一環として,既存のクラスタリングを最小限に修正して公平性を実現する方法について検討した。我々は,同値なグループ表現とニア線形時間定数係数近似アルゴリズムを用いたデータセットの最適アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-06-10T10:33:21Z)
A Computational Approach to Improving Fairness in K-means Clustering [8.001963712764569]
一般的なK平均クラスタリングアルゴリズムは、さらなる分析や解釈の大きな弱点に悩まされる可能性がある。この研究は、K平均クラスタリングの公平性を改善するために、2段階最適化の定式化を試みる。ベンチマークデータセットの実験は、クラスタリングの品質に最小限の影響を伴って、フェアネスを大幅に改善したことを示している。
論文参考訳（メタデータ） (2025-05-29T01:48:12Z)
From Large to Small Datasets: Size Generalization for Clustering Algorithm Selection [12.993073967843292]
我々は,未知の地下構造クラスタリングを用いて,半教師付き環境で問題を研究する。本稿では,クラスタリングアルゴリズムの精度向上のためのサイズ一般化の概念を提案する。データセット全体においてどのアルゴリズムが最適かを特定するために、データの5%をサブサンプルとして使用しています。
論文参考訳（メタデータ） (2024-02-22T06:53:35Z)
CueGCL: Cluster-aware Personalized Self-Training for Unsupervised Graph Contrastive Learning [49.88192702588169]
本稿ではクラスタリング結果とノード表現を協調的に学習するクラスタ対応グラフコントラスト学習フレームワーク(CueGCL)を提案する。具体的には、教師なしシナリオのためのパーソナライズされた自己学習(PeST)戦略を設計し、クラスタレベルのパーソナライズされた正確な情報をモデルが取得できるようにする。本稿では,モデルの有効性を理論的に実証し,クラスタ構造が著しく識別可能な埋め込み空間が得られることを示した。
論文参考訳（メタデータ） (2023-11-18T13:45:21Z)
Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文参考訳（メタデータ） (2023-08-13T18:12:28Z)
Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文参考訳（メタデータ） (2023-06-18T08:46:06Z)
Fair Minimum Representation Clustering [0.0]
クラスタリングは、データをクラスタの集合に分割することを目的とした教師なしの学習タスクである。一般的な$k$-meansアルゴリズムであるロイドのアルゴリズムが不公平な結果をもたらすことを示す。フェアネス制約を直接組み込む、ミニReLと呼ばれるロイドのアルゴリズムの変種を示す。
論文参考訳（メタデータ） (2023-02-06T23:16:38Z)
Socially Fair Center-based and Linear Subspace Clustering [8.355270405285909]
センターベースのクラスタリングと線形サブスペースクラスタリングは、現実世界のデータを小さなクラスタに分割する一般的なテクニックである。異なる敏感なグループに対する1点当たりのクラスタリングコストは、公平性に関連する害をもたらす可能性がある。本稿では,社会的に公平なセンタベースのクラスタリングと線形サブスペースクラスタリングを解決するための統一的なフレームワークを提案する。
論文参考訳（メタデータ） (2022-08-22T07:10:17Z)
Fair Labeled Clustering [28.297893914525517]
クラスタリングのダウンストリーム適用と,そのような設定に対してグループフェアネスをどのように確保するかを検討する。このような問題に対するアルゴリズムを提供し、グループフェアクラスタリングにおけるNPハードのアルゴリズムとは対照的に、効率的な解が可能であることを示す。また、距離空間における中心位置に関係なく、意思決定者が自由にクラスタにラベルを割り当てることができるような、モチベーションのよい代替設定についても検討する。
論文参考訳（メタデータ） (2022-05-28T07:07:12Z)
Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-29T08:13:56Z)
Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。最近の研究は、低次手法のクラスに対する低い境界を確立している。意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文参考訳（メタデータ） (2021-12-07T18:50:17Z)
Clustering to the Fewest Clusters Under Intra-Cluster Dissimilarity Constraints [0.0]
均等なクラスタリングは、密度も期待されるクラスの数にも依存せず、相似性の閾値にも依存します。このクラスタリング問題に対する様々な実践的ソリューション間のトレードオフを特定するために,適切なクラスタリングアルゴリズムをレビューし,評価する。
論文参考訳（メタデータ） (2021-09-28T12:02:18Z)
Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。クエリを少なくすることで、問題の解決が容易になる。
論文参考訳（メタデータ） (2021-06-04T02:32:26Z)
You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文参考訳（メタデータ） (2021-06-03T14:59:59Z)
Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文参考訳（メタデータ） (2020-10-22T15:58:35Z)
Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文参考訳（メタデータ） (2020-05-21T17:51:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。