論文の概要: Fair Coresets via Optimal Transport
- arxiv url: http://arxiv.org/abs/2311.05436v2
- Date: Thu, 8 Feb 2024 21:52:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 20:04:42.946917
- Title: Fair Coresets via Optimal Transport
- Title(参考訳): 最適輸送によるフェアコアセット
- Authors: Zikai Xiong, Niccol\`o Dalmasso, Shubham Sharma, Freddy Lecue, Daniele
Magazzeni, Vamsi K. Potluru, Tucker Balch, Manuela Veloso
- Abstract要約: サンプルレベルの重みとともに,適切な合成代表サンプルを生成する新しいコアセット手法を提案する。
我々は、FWCの制約のないバージョンが、k-メディアンやk-平均クラスタリングのためのロイドのアルゴリズムと等価であることを示す。
合成データセットと実データセットの両方で実施された実験により、FWCは下流モデルにおける競合フェアネス・パフォーマンスのトレードオフを達成することが示された。
- 参考スコア(独自算出の注目度): 12.501454853876556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data distillation and coresets have emerged as popular approaches to generate
a smaller representative set of samples for downstream learning tasks to handle
large-scale datasets. At the same time, machine learning is being increasingly
applied to decision-making processes at a societal level, making it imperative
for modelers to address inherent biases towards subgroups present in the data.
Current approaches create fair synthetic representative samples by optimizing
local properties relative to the original samples, but their effect on
downstream learning processes has yet to be explored. In this work, we present
fair Wasserstein coresets (FWC), a novel coreset approach which generates fair
synthetic representative samples along with sample-level weights to be used in
downstream learning tasks. FWC minimizes the Wasserstein distance between the
original dataset and the weighted synthetic samples while enforcing demographic
parity. We show that an unconstrained version of FWC is equivalent to Lloyd's
algorithm for k-medians and k-means clustering. Experiments conducted on both
synthetic and real datasets show that FWC: (i) achieves a competitive
fairness-performance tradeoff in downstream models compared to existing
approaches, (ii) improves downstream fairness when added to the existing
training data and (iii) can be used to reduce biases in predictions from large
language models (GPT-3.5 and GPT-4).
- Abstract(参考訳): データ蒸留とコアセットは、大規模なデータセットを扱うための下流学習タスクのためのより小さなサンプルセットを生成する一般的なアプローチとして現れている。
同時に、機械学習は社会的レベルでの意思決定プロセスにますます適用され、モデリング者がデータに存在するサブグループに対する固有のバイアスに対処することが不可欠になっている。
現在の方法では、原サンプルに対する局所特性を最適化することで、公正な合成代表サンプルを作成するが、下流学習プロセスへの影響はまだ検討されていない。
本稿では,fair wasserstein coresets (fwc) を提案する。これは,下流学習タスクで使用するサンプルレベルの重みと合わせて,公正な合成代表サンプルを生成する新しいコアセットアプローチである。
fwcは、人口格差を強制しながら、元のデータセットと重み付けされた合成サンプルとの間のワッサースタイン距離を最小化する。
fwcの制約のないバージョンは、k-mediansとk-meansクラスタリングのためのlloydのアルゴリズムと等価であることを示す。
合成データと実データの両方で実験した結果、fwc:
i) 既存のアプローチと比較して下流モデルにおける競合フェアネス・パフォーマンストレードオフを実現する。
(ii)既存の訓練データに加えると下流公平性が向上する。
(iii)は,大規模言語モデル(GPT-3.5およびGPT-4)からの予測のバイアスを低減するために用いられる。
関連論文リスト
- IBADR: an Iterative Bias-Aware Dataset Refinement Framework for
Debiasing NLU models [52.03761198830643]
IBADR(Iterative Bias-Aware dataset Refinement framework)を提案する。
まず、プール内のサンプルのバイアス度を定量化するために浅いモデルを訓練する。
次に、各サンプルにバイアス度を表すバイアス指標をペアにして、これらの拡張サンプルを使用してサンプルジェネレータを訓練する。
このようにして、このジェネレータは、バイアスインジケータとサンプルの対応関係を効果的に学習することができる。
論文 参考訳(メタデータ) (2023-11-01T04:50:38Z) - Self-Supervised Dataset Distillation for Transfer Learning [82.09002658558529]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Feedback-guided Data Synthesis for Imbalanced Classification [11.625643407385391]
有用な合成サンプルを用いて静的データセットを拡張するためのフレームワークを提案する。
サンプルはタスクの実際のデータのサポートに近づき、十分に多様であることに気付きました。
ImageNet-LTでは、表現不足のクラスでは4%以上改善され、最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-09-29T21:47:57Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Mitigating Dataset Bias by Using Per-sample Gradient [9.290757451344673]
PGD(Per-sample Gradient-based Debiasing)は,一様バッチサンプリングによるモデルトレーニング,サンプル勾配の基準に比例して各サンプルの重要性の設定,重要バッチサンプリングを用いたモデルトレーニングの3段階からなる。
種々の合成および実世界のデータセットに対する既存のベースラインと比較して,本手法は分類タスクの最先端の精度を示した。
論文 参考訳(メタデータ) (2022-05-31T11:41:02Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - TabFairGAN: Fair Tabular Data Generation with Generative Adversarial
Networks [0.0]
本稿では,表データ生成のためのジェネレーティブ・アドバイザリアル・ネットワークを提案する。
我々は、制約のない、制約のない公正なデータ生成の両方のケースで結果をテストする。
我々のモデルは、1つの批評家のみを用いることで、また元のGANモデルの大きな問題を避けることで、より安定している。
論文 参考訳(メタデータ) (2021-09-02T01:48:01Z) - A Novel Adaptive Minority Oversampling Technique for Improved
Classification in Data Imbalanced Scenarios [23.257891827728827]
異なるクラスに属するトレーニングサンプルの割合の不均衡は、しばしば従来の分類器の性能低下を引き起こす。
不均衡なデータに対処する新しい3ステップ手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T09:58:02Z) - Distillation-Based Semi-Supervised Federated Learning for
Communication-Efficient Collaborative Training with Non-IID Private Data [8.935169114460663]
本研究では,主にインクリメンタルなコミュニケーションコストを克服するフェデレートラーニング(FL)フレームワークを開発する。
モバイル端末間でローカルモデルの出力を交換する蒸留に基づく半教師付きFLアルゴリズムを提案する。
DS-FLでは、通信コストはモデルの出力次元にのみ依存し、モデルサイズに応じてスケールアップしない。
論文 参考訳(メタデータ) (2020-08-14T03:47:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。