論文の概要: Fair Coresets via Optimal Transport
- arxiv url: http://arxiv.org/abs/2311.05436v2
- Date: Thu, 8 Feb 2024 21:52:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 20:04:42.946917
- Title: Fair Coresets via Optimal Transport
- Title(参考訳): 最適輸送によるフェアコアセット
- Authors: Zikai Xiong, Niccol\`o Dalmasso, Shubham Sharma, Freddy Lecue, Daniele
Magazzeni, Vamsi K. Potluru, Tucker Balch, Manuela Veloso
- Abstract要約: サンプルレベルの重みとともに,適切な合成代表サンプルを生成する新しいコアセット手法を提案する。
我々は、FWCの制約のないバージョンが、k-メディアンやk-平均クラスタリングのためのロイドのアルゴリズムと等価であることを示す。
合成データセットと実データセットの両方で実施された実験により、FWCは下流モデルにおける競合フェアネス・パフォーマンスのトレードオフを達成することが示された。
- 参考スコア(独自算出の注目度): 12.501454853876556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data distillation and coresets have emerged as popular approaches to generate
a smaller representative set of samples for downstream learning tasks to handle
large-scale datasets. At the same time, machine learning is being increasingly
applied to decision-making processes at a societal level, making it imperative
for modelers to address inherent biases towards subgroups present in the data.
Current approaches create fair synthetic representative samples by optimizing
local properties relative to the original samples, but their effect on
downstream learning processes has yet to be explored. In this work, we present
fair Wasserstein coresets (FWC), a novel coreset approach which generates fair
synthetic representative samples along with sample-level weights to be used in
downstream learning tasks. FWC minimizes the Wasserstein distance between the
original dataset and the weighted synthetic samples while enforcing demographic
parity. We show that an unconstrained version of FWC is equivalent to Lloyd's
algorithm for k-medians and k-means clustering. Experiments conducted on both
synthetic and real datasets show that FWC: (i) achieves a competitive
fairness-performance tradeoff in downstream models compared to existing
approaches, (ii) improves downstream fairness when added to the existing
training data and (iii) can be used to reduce biases in predictions from large
language models (GPT-3.5 and GPT-4).
- Abstract(参考訳): データ蒸留とコアセットは、大規模なデータセットを扱うための下流学習タスクのためのより小さなサンプルセットを生成する一般的なアプローチとして現れている。
同時に、機械学習は社会的レベルでの意思決定プロセスにますます適用され、モデリング者がデータに存在するサブグループに対する固有のバイアスに対処することが不可欠になっている。
現在の方法では、原サンプルに対する局所特性を最適化することで、公正な合成代表サンプルを作成するが、下流学習プロセスへの影響はまだ検討されていない。
本稿では,fair wasserstein coresets (fwc) を提案する。これは,下流学習タスクで使用するサンプルレベルの重みと合わせて,公正な合成代表サンプルを生成する新しいコアセットアプローチである。
fwcは、人口格差を強制しながら、元のデータセットと重み付けされた合成サンプルとの間のワッサースタイン距離を最小化する。
fwcの制約のないバージョンは、k-mediansとk-meansクラスタリングのためのlloydのアルゴリズムと等価であることを示す。
合成データと実データの両方で実験した結果、fwc:
i) 既存のアプローチと比較して下流モデルにおける競合フェアネス・パフォーマンストレードオフを実現する。
(ii)既存の訓練データに加えると下流公平性が向上する。
(iii)は,大規模言語モデル(GPT-3.5およびGPT-4)からの予測のバイアスを低減するために用いられる。
関連論文リスト
- Aggregation Weighting of Federated Learning via Generalization Bound
Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。
上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文 参考訳(メタデータ) (2023-11-10T08:50:28Z) - FairWASP: Fast and Optimal Fair Wasserstein Pre-processing [9.627848184502783]
本報告では,FairWASPについて述べる。FairWASPは,従来のデータを変更することなく,分類データセットの格差を低減するための,新しい前処理手法である。
我々は,整数重みが最適であることを理論的に示す。つまり,本手法はサンプルの重複や除去と等価に理解することができる。
本研究は, 大規模混合整数プログラム (MIP) として前処理タスクを再構成し, 切削平面法に基づく高効率なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-31T19:36:00Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Mitigating Dataset Bias by Using Per-sample Gradient [9.290757451344673]
PGD(Per-sample Gradient-based Debiasing)は,一様バッチサンプリングによるモデルトレーニング,サンプル勾配の基準に比例して各サンプルの重要性の設定,重要バッチサンプリングを用いたモデルトレーニングの3段階からなる。
種々の合成および実世界のデータセットに対する既存のベースラインと比較して,本手法は分類タスクの最先端の精度を示した。
論文 参考訳(メタデータ) (2022-05-31T11:41:02Z) - Imbalanced Classification via a Tabular Translation GAN [4.864819846886142]
本稿では,多数のサンプルを対応する合成マイノリティ標本にマッピングするために,新たな正規化損失を用いたジェネレーティブ・アドバイサル・ネットワークに基づくモデルを提案する。
提案手法は, 再加重法やオーバーサンプリング法と比較して, 平均精度を向上することを示す。
論文 参考訳(メタデータ) (2022-04-19T06:02:53Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - A Novel Adaptive Minority Oversampling Technique for Improved
Classification in Data Imbalanced Scenarios [23.257891827728827]
異なるクラスに属するトレーニングサンプルの割合の不均衡は、しばしば従来の分類器の性能低下を引き起こす。
不均衡なデータに対処する新しい3ステップ手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T09:58:02Z) - Conditional Wasserstein GAN-based Oversampling of Tabular Data for
Imbalanced Learning [10.051309746913512]
本稿では,条件付きWasserstein GANに基づくオーバーサンプリング手法を提案する。
実世界の7つのデータセット上で,標準的なオーバーサンプリング手法と不均衡なベースラインに対して,本手法をベンチマークした。
論文 参考訳(メタデータ) (2020-08-20T20:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。