論文の概要: Fair Wasserstein Coresets
- arxiv url: http://arxiv.org/abs/2311.05436v1
- Date: Thu, 9 Nov 2023 15:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 15:09:02.260765
- Title: Fair Wasserstein Coresets
- Title(参考訳): Fair Wasserstein Coresets
- Authors: Zikai Xiong, Niccol\`o Dalmasso, Vamsi K. Potluru, Tucker Balch,
Manuela Veloso
- Abstract要約: フェア・ワッサースタイン・コアセット(Fair Wasserstein Coresets, FWC)は、公正な合成代表サンプルを生成する新しいコアセット・アプローチである。
FWCは、元のデータセットと重み付けされた合成サンプルの間のワッサーシュタイン距離を最小化することを目的としている。
我々は、FWCを、k-メディアンやk-平均クラスタリングのためのロイドのアルゴリズムの制約されたバージョンと考えることができることを示す。
- 参考スコア(独自算出の注目度): 10.08251353097515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent technological advancements have given rise to the ability of
collecting vast amounts of data, that often exceed the capacity of commonly
used machine learning algorithms. Approaches such as coresets and synthetic
data distillation have emerged as frameworks to generate a smaller, yet
representative, set of samples for downstream training. As machine learning is
increasingly applied to decision-making processes, it becomes imperative for
modelers to consider and address biases in the data concerning subgroups
defined by factors like race, gender, or other sensitive attributes. Current
approaches focus on creating fair synthetic representative samples by
optimizing local properties relative to the original samples. These methods,
however, are not guaranteed to positively affect the performance or fairness of
downstream learning processes. In this work, we present Fair Wasserstein
Coresets (FWC), a novel coreset approach which generates fair synthetic
representative samples along with sample-level weights to be used in downstream
learning tasks. FWC aims to minimize the Wasserstein distance between the
original datasets and the weighted synthetic samples while enforcing (an
empirical version of) demographic parity, a prominent criterion for algorithmic
fairness, via a linear constraint. We show that FWC can be thought of as a
constrained version of Lloyd's algorithm for k-medians or k-means clustering.
Our experiments, conducted on both synthetic and real datasets, demonstrate the
scalability of our approach and highlight the competitive performance of FWC
compared to existing fair clustering approaches, even when attempting to
enhance the fairness of the latter through fair pre-processing techniques.
- Abstract(参考訳): 近年の技術的進歩により、大量のデータを収集する能力が生まれ、一般的な機械学習アルゴリズムの能力を超えていることが多い。
coresetsやsynthetic data distillationといったアプローチは、下流トレーニングのためにより小さく、しかし代表的なサンプルセットを生成するためのフレームワークとして登場した。
機械学習が意思決定プロセスにますます適用されるにつれて、モデル作成者は人種、性別、その他の機密属性といった要因によって定義されるサブグループに関するデータの中でバイアスを考慮し、対処することが不可欠になる。
現在のアプローチは、原サンプルに対する局所特性を最適化することで、公正な合成代表サンプルを作成することに焦点を当てている。
しかし、これらの手法は下流学習プロセスの性能や公平性に肯定的な影響を及ぼすことは保証されていない。
本稿では,fair wasserstein coresets (fwc) を提案する。これは,下流学習タスクで使用するサンプルレベルの重みと合わせて,公正な合成代表サンプルを生成する新しいコアセットアプローチである。
FWCは、元のデータセットと重み付けされた合成サンプルの間のワッサースタイン距離を最小化することを目的としており、線形制約によってアルゴリズムの公正性の顕著な基準である(経験的なバージョンの)人口比率を強制する。
我々は,fwcをk-mediansあるいはk-meansクラスタリングのためのロイドアルゴリズムの制約付きバージョンと考えることができることを示した。
我々の実験は, 合成データセットと実データセットの両方で実施され, 我々のアプローチのスケーラビリティを実証し, 公正クラスタリング手法と比較してFWCの競争性能を強調した。
関連論文リスト
- Aggregation Weighting of Federated Learning via Generalization Bound
Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。
上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文 参考訳(メタデータ) (2023-11-10T08:50:28Z) - FairWASP: Fast and Optimal Fair Wasserstein Pre-processing [9.627848184502783]
本報告では,FairWASPについて述べる。FairWASPは,従来のデータを変更することなく,分類データセットの格差を低減するための,新しい前処理手法である。
我々は,整数重みが最適であることを理論的に示す。つまり,本手法はサンプルの重複や除去と等価に理解することができる。
本研究は, 大規模混合整数プログラム (MIP) として前処理タスクを再構成し, 切削平面法に基づく高効率なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-31T19:36:00Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Mitigating Dataset Bias by Using Per-sample Gradient [9.290757451344673]
PGD(Per-sample Gradient-based Debiasing)は,一様バッチサンプリングによるモデルトレーニング,サンプル勾配の基準に比例して各サンプルの重要性の設定,重要バッチサンプリングを用いたモデルトレーニングの3段階からなる。
種々の合成および実世界のデータセットに対する既存のベースラインと比較して,本手法は分類タスクの最先端の精度を示した。
論文 参考訳(メタデータ) (2022-05-31T11:41:02Z) - Imbalanced Classification via a Tabular Translation GAN [4.864819846886142]
本稿では,多数のサンプルを対応する合成マイノリティ標本にマッピングするために,新たな正規化損失を用いたジェネレーティブ・アドバイサル・ネットワークに基づくモデルを提案する。
提案手法は, 再加重法やオーバーサンプリング法と比較して, 平均精度を向上することを示す。
論文 参考訳(メタデータ) (2022-04-19T06:02:53Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - A Novel Adaptive Minority Oversampling Technique for Improved
Classification in Data Imbalanced Scenarios [23.257891827728827]
異なるクラスに属するトレーニングサンプルの割合の不均衡は、しばしば従来の分類器の性能低下を引き起こす。
不均衡なデータに対処する新しい3ステップ手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T09:58:02Z) - Conditional Wasserstein GAN-based Oversampling of Tabular Data for
Imbalanced Learning [10.051309746913512]
本稿では,条件付きWasserstein GANに基づくオーバーサンプリング手法を提案する。
実世界の7つのデータセット上で,標準的なオーバーサンプリング手法と不均衡なベースラインに対して,本手法をベンチマークした。
論文 参考訳(メタデータ) (2020-08-20T20:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。