論文の概要: Fair Wasserstein Coresets
- arxiv url: http://arxiv.org/abs/2311.05436v4
- Date: Tue, 29 Oct 2024 19:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:25:45.349626
- Title: Fair Wasserstein Coresets
- Title(参考訳): Fair Wasserstein Coresets
- Authors: Zikai Xiong, Niccolò Dalmasso, Shubham Sharma, Freddy Lecue, Daniele Magazzeni, Vamsi K. Potluru, Tucker Balch, Manuela Veloso,
- Abstract要約: フェアな合成代表サンプルを生成する新しいコアセットであるフェア・ワッサースタイン・コアセット(FWC)を提示する。
FWCは、元のデータセットと重み付けされた合成サンプルの間のワッサースタイン距離を最小化するために効率的な多数決最小化アルゴリズムを使用している。
我々は、FWCの制約のないバージョンが、k-メディアンやk-平均クラスタリングのためのロイドのアルゴリズムと等価であることを示す。
- 参考スコア(独自算出の注目度): 12.677866300850926
- License:
- Abstract: Data distillation and coresets have emerged as popular approaches to generate a smaller representative set of samples for downstream learning tasks to handle large-scale datasets. At the same time, machine learning is being increasingly applied to decision-making processes at a societal level, making it imperative for modelers to address inherent biases towards subgroups present in the data. While current approaches focus on creating fair synthetic representative samples by optimizing local properties relative to the original samples, their impact on downstream learning processes has yet to be explored. In this work, we present fair Wasserstein coresets (FWC), a novel coreset approach which generates fair synthetic representative samples along with sample-level weights to be used in downstream learning tasks. FWC uses an efficient majority minimization algorithm to minimize the Wasserstein distance between the original dataset and the weighted synthetic samples while enforcing demographic parity. We show that an unconstrained version of FWC is equivalent to Lloyd's algorithm for k-medians and k-means clustering. Experiments conducted on both synthetic and real datasets show that FWC: (i) achieves a competitive fairness-utility tradeoff in downstream models compared to existing approaches, (ii) improves downstream fairness when added to the existing training data and (iii) can be used to reduce biases in predictions from large language models (GPT-3.5 and GPT-4).
- Abstract(参考訳): データ蒸留とコアセットは、大規模なデータセットを扱うための下流学習タスクのためのより小さなサンプルセットを生成するための一般的なアプローチとして現れている。
同時に、機械学習は社会的レベルでの意思決定プロセスにますます適用され、モデリング者がデータに存在するサブグループに対する固有のバイアスに対処することが不可欠になっている。
現在のアプローチでは、原サンプルに対する局所特性を最適化することで、公正な合成代表サンプルの作成に重点を置いているが、下流学習プロセスへの影響はまだ検討されていない。
本研究では、下流学習タスクで使用するサンプルレベルの重みとともに、公正な合成代表サンプルを生成する新しいコアセットである、フェア・ワッサースタイン・コアセット(FWC)を提案する。
FWCは効率的な多数決最小化アルゴリズムを用いて、ワッサースタインのデータセットと重み付けされた合成サンプルとの距離を最小化し、人口統計学的等式を強制する。
我々は、FWCの制約のないバージョンが、k-メディアンやk-平均クラスタリングのためのロイドのアルゴリズムと等価であることを示す。
合成データと実データの両方で行った実験は、FWCが示す。
i) 既存のアプローチと比較して下流モデルにおいて、競争力のある公正効用トレードオフを実現する。
(二)既存の訓練データに付加した場合の下流の公平性を改善すること。
(iii)は,大規模言語モデル(GPT-3.5およびGPT-4)からの予測のバイアスを低減するために用いられる。
関連論文リスト
- Aggregation Weighting of Federated Learning via Generalization Bound
Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。
上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文 参考訳(メタデータ) (2023-11-10T08:50:28Z) - FairWASP: Fast and Optimal Fair Wasserstein Pre-processing [9.627848184502783]
本報告では,FairWASPについて述べる。FairWASPは,従来のデータを変更することなく,分類データセットの格差を低減するための,新しい前処理手法である。
我々は,整数重みが最適であることを理論的に示す。つまり,本手法はサンプルの重複や除去と等価に理解することができる。
本研究は, 大規模混合整数プログラム (MIP) として前処理タスクを再構成し, 切削平面法に基づく高効率なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-31T19:36:00Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Mitigating Dataset Bias by Using Per-sample Gradient [9.290757451344673]
PGD(Per-sample Gradient-based Debiasing)は,一様バッチサンプリングによるモデルトレーニング,サンプル勾配の基準に比例して各サンプルの重要性の設定,重要バッチサンプリングを用いたモデルトレーニングの3段階からなる。
種々の合成および実世界のデータセットに対する既存のベースラインと比較して,本手法は分類タスクの最先端の精度を示した。
論文 参考訳(メタデータ) (2022-05-31T11:41:02Z) - Imbalanced Classification via a Tabular Translation GAN [4.864819846886142]
本稿では,多数のサンプルを対応する合成マイノリティ標本にマッピングするために,新たな正規化損失を用いたジェネレーティブ・アドバイサル・ネットワークに基づくモデルを提案する。
提案手法は, 再加重法やオーバーサンプリング法と比較して, 平均精度を向上することを示す。
論文 参考訳(メタデータ) (2022-04-19T06:02:53Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - A Novel Adaptive Minority Oversampling Technique for Improved
Classification in Data Imbalanced Scenarios [23.257891827728827]
異なるクラスに属するトレーニングサンプルの割合の不均衡は、しばしば従来の分類器の性能低下を引き起こす。
不均衡なデータに対処する新しい3ステップ手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T09:58:02Z) - Conditional Wasserstein GAN-based Oversampling of Tabular Data for
Imbalanced Learning [10.051309746913512]
本稿では,条件付きWasserstein GANに基づくオーバーサンプリング手法を提案する。
実世界の7つのデータセット上で,標準的なオーバーサンプリング手法と不均衡なベースラインに対して,本手法をベンチマークした。
論文 参考訳(メタデータ) (2020-08-20T20:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。