Fugu-MT 論文翻訳(概要): Fair Coresets via Optimal Transport

論文の概要: Fair Coresets via Optimal Transport

arxiv url: http://arxiv.org/abs/2311.05436v2
Date: Thu, 8 Feb 2024 21:52:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 20:04:42.946917
Title: Fair Coresets via Optimal Transport
Title（参考訳）: 最適輸送によるフェアコアセット
Authors: Zikai Xiong, Niccol\`o Dalmasso, Shubham Sharma, Freddy Lecue, Daniele Magazzeni, Vamsi K. Potluru, Tucker Balch, Manuela Veloso
Abstract要約: サンプルレベルの重みとともに,適切な合成代表サンプルを生成する新しいコアセット手法を提案する。我々は、FWCの制約のないバージョンが、k-メディアンやk-平均クラスタリングのためのロイドのアルゴリズムと等価であることを示す。合成データセットと実データセットの両方で実施された実験により、FWCは下流モデルにおける競合フェアネス・パフォーマンスのトレードオフを達成することが示された。
参考スコア（独自算出の注目度）: 12.501454853876556
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data distillation and coresets have emerged as popular approaches to generate a smaller representative set of samples for downstream learning tasks to handle large-scale datasets. At the same time, machine learning is being increasingly applied to decision-making processes at a societal level, making it imperative for modelers to address inherent biases towards subgroups present in the data. Current approaches create fair synthetic representative samples by optimizing local properties relative to the original samples, but their effect on downstream learning processes has yet to be explored. In this work, we present fair Wasserstein coresets (FWC), a novel coreset approach which generates fair synthetic representative samples along with sample-level weights to be used in downstream learning tasks. FWC minimizes the Wasserstein distance between the original dataset and the weighted synthetic samples while enforcing demographic parity. We show that an unconstrained version of FWC is equivalent to Lloyd's algorithm for k-medians and k-means clustering. Experiments conducted on both synthetic and real datasets show that FWC: (i) achieves a competitive fairness-performance tradeoff in downstream models compared to existing approaches, (ii) improves downstream fairness when added to the existing training data and (iii) can be used to reduce biases in predictions from large language models (GPT-3.5 and GPT-4).
Abstract（参考訳）: データ蒸留とコアセットは、大規模なデータセットを扱うための下流学習タスクのためのより小さなサンプルセットを生成する一般的なアプローチとして現れている。同時に、機械学習は社会的レベルでの意思決定プロセスにますます適用され、モデリング者がデータに存在するサブグループに対する固有のバイアスに対処することが不可欠になっている。現在の方法では、原サンプルに対する局所特性を最適化することで、公正な合成代表サンプルを作成するが、下流学習プロセスへの影響はまだ検討されていない。本稿では,fair wasserstein coresets (fwc) を提案する。これは,下流学習タスクで使用するサンプルレベルの重みと合わせて,公正な合成代表サンプルを生成する新しいコアセットアプローチである。 fwcは、人口格差を強制しながら、元のデータセットと重み付けされた合成サンプルとの間のワッサースタイン距離を最小化する。 fwcの制約のないバージョンは、k-mediansとk-meansクラスタリングのためのlloydのアルゴリズムと等価であることを示す。合成データと実データの両方で実験した結果、fwc: i) 既存のアプローチと比較して下流モデルにおける競合フェアネス・パフォーマンストレードオフを実現する。 (ii)既存の訓練データに加えると下流公平性が向上する。 (iii)は,大規模言語モデル(GPT-3.5およびGPT-4)からの予測のバイアスを低減するために用いられる。

関連論文リスト

Leveraging Text-to-Image Generation for Handling Spurious Correlation [24.940576844328408]
経験的リスク最小化(ERM)でトレーニングされたディープニューラルネットワークは、トレーニングとテストの両方が同じドメインからやってくると、うまく機能する。 ERMモデルは、ラベルと画像の無関係な特徴の間にしばしば存在する急激な相関に頼り、それらの特徴が存在しないと予測できない。本稿では,テキスト・トゥ・イメージ(T2I)拡散モデルを用いたトレーニングサンプルの生成手法を提案する。
論文参考訳（メタデータ） (2025-03-21T15:28:22Z)
Group Distributionally Robust Dataset Distillation with Risk Minimization [17.05513836324578]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。我々は、我々のアプローチに理論的根拠を与え、その効果的な一般化と部分群間のロバスト性を示す。
論文参考訳（メタデータ） (2024-02-07T09:03:04Z)
Aggregation Weighting of Federated Learning via Generalization Bound Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文参考訳（メタデータ） (2023-11-10T08:50:28Z)
FairWASP: Fast and Optimal Fair Wasserstein Pre-processing [9.627848184502783]
本報告では,FairWASPについて述べる。FairWASPは,従来のデータを変更することなく,分類データセットの格差を低減するための,新しい前処理手法である。我々は,整数重みが最適であることを理論的に示す。つまり,本手法はサンプルの重複や除去と等価に理解することができる。本研究は, 大規模混合整数プログラム (MIP) として前処理タスクを再構成し, 切削平面法に基づく高効率なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-31T19:36:00Z)
Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文参考訳（メタデータ） (2023-10-10T10:48:52Z)
Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文参考訳（メタデータ） (2023-04-04T17:54:32Z)
Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-06T14:49:59Z)
Mitigating Dataset Bias by Using Per-sample Gradient [9.290757451344673]
PGD(Per-sample Gradient-based Debiasing)は,一様バッチサンプリングによるモデルトレーニング,サンプル勾配の基準に比例して各サンプルの重要性の設定,重要バッチサンプリングを用いたモデルトレーニングの3段階からなる。種々の合成および実世界のデータセットに対する既存のベースラインと比較して,本手法は分類タスクの最先端の精度を示した。
論文参考訳（メタデータ） (2022-05-31T11:41:02Z)
Imbalanced Classification via a Tabular Translation GAN [4.864819846886142]
本稿では,多数のサンプルを対応する合成マイノリティ標本にマッピングするために,新たな正規化損失を用いたジェネレーティブ・アドバイサル・ネットワークに基づくモデルを提案する。提案手法は, 再加重法やオーバーサンプリング法と比較して, 平均精度を向上することを示す。
論文参考訳（メタデータ） (2022-04-19T06:02:53Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
FairIF: Boosting Fairness in Deep Learning via Influence Functions with Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。 FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文参考訳（メタデータ） (2022-01-15T05:14:48Z)
A Novel Adaptive Minority Oversampling Technique for Improved Classification in Data Imbalanced Scenarios [23.257891827728827]
異なるクラスに属するトレーニングサンプルの割合の不均衡は、しばしば従来の分類器の性能低下を引き起こす。不均衡なデータに対処する新しい3ステップ手法を提案する。
論文参考訳（メタデータ） (2021-03-24T09:58:02Z)
Conditional Wasserstein GAN-based Oversampling of Tabular Data for Imbalanced Learning [10.051309746913512]
本稿では,条件付きWasserstein GANに基づくオーバーサンプリング手法を提案する。実世界の7つのデータセット上で,標準的なオーバーサンプリング手法と不均衡なベースラインに対して,本手法をベンチマークした。
論文参考訳（メタデータ） (2020-08-20T20:33:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。