論文の概要: FairWASP: Fast and Optimal Fair Wasserstein Pre-processing
- arxiv url: http://arxiv.org/abs/2311.00109v3
- Date: Wed, 23 Oct 2024 20:22:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:43:23.622965
- Title: FairWASP: Fast and Optimal Fair Wasserstein Pre-processing
- Title(参考訳): FairWASP: 高速かつ最適なFair Wasserstein前処理
- Authors: Zikai Xiong, Niccolò Dalmasso, Alan Mishler, Vamsi K. Potluru, Tucker Balch, Manuela Veloso,
- Abstract要約: 本報告では,FairWASPについて述べる。FairWASPは,従来のデータを変更することなく,分類データセットの格差を低減するための,新しい前処理手法である。
我々は,整数重みが最適であることを理論的に示す。つまり,本手法はサンプルの重複や除去と等価に理解することができる。
本研究は, 大規模混合整数プログラム (MIP) として前処理タスクを再構成し, 切削平面法に基づく高効率なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 9.627848184502783
- License:
- Abstract: Recent years have seen a surge of machine learning approaches aimed at reducing disparities in model outputs across different subgroups. In many settings, training data may be used in multiple downstream applications by different users, which means it may be most effective to intervene on the training data itself. In this work, we present FairWASP, a novel pre-processing approach designed to reduce disparities in classification datasets without modifying the original data. FairWASP returns sample-level weights such that the reweighted dataset minimizes the Wasserstein distance to the original dataset while satisfying (an empirical version of) demographic parity, a popular fairness criterion. We show theoretically that integer weights are optimal, which means our method can be equivalently understood as duplicating or eliminating samples. FairWASP can therefore be used to construct datasets which can be fed into any classification method, not just methods which accept sample weights. Our work is based on reformulating the pre-processing task as a large-scale mixed-integer program (MIP), for which we propose a highly efficient algorithm based on the cutting plane method. Experiments demonstrate that our proposed optimization algorithm significantly outperforms state-of-the-art commercial solvers in solving both the MIP and its linear program relaxation. Further experiments highlight the competitive performance of FairWASP in reducing disparities while preserving accuracy in downstream classification settings.
- Abstract(参考訳): 近年、異なるサブグループ間でのモデル出力の格差を減らすことを目的とした機械学習アプローチが急増している。
多くの設定では、トレーニングデータが異なるユーザによって複数のダウンストリームアプリケーションで使用される可能性があるため、トレーニングデータ自体に介入することが最も効果的である可能性がある。
本研究では,FairWASPについて述べる。FairWASPは,従来のデータを変更することなく,分類データセットの格差を低減するために設計された,新しい前処理手法である。
FairWASPはサンプルレベルの重みを返すため、再重み付けされたデータセットは、ワッサースタインから元のデータセットまでの距離を最小化し、(実証的なバージョンの)人口統計値を満たす。
我々は,整数重みが最適であることを理論的に示す。つまり,本手法はサンプルの重複や除去と等価に理解することができる。
したがって、FairWASPは、サンプル重量を受け入れるメソッドだけでなく、任意の分類方法に入力可能なデータセットを構築するために使用できる。
本研究は, 大規模混合整数プログラム (MIP) として前処理タスクを再構成し, 切削平面法に基づく高効率なアルゴリズムを提案する。
実験により,提案アルゴリズムは,MIPと線形プログラム緩和の双方を解く上で,最先端の商用解法よりも大幅に優れていることが示された。
さらに実験では、下流の分類設定で精度を保ちながら格差を減らし、FairWASPの競争性能を強調している。
関連論文リスト
- Fair Wasserstein Coresets [12.677866300850926]
フェアな合成代表サンプルを生成する新しいコアセットであるフェア・ワッサースタイン・コアセット(FWC)を提示する。
FWCは、元のデータセットと重み付けされた合成サンプルの間のワッサースタイン距離を最小化するために効率的な多数決最小化アルゴリズムを使用している。
我々は、FWCの制約のないバージョンが、k-メディアンやk-平均クラスタリングのためのロイドのアルゴリズムと等価であることを示す。
論文 参考訳(メタデータ) (2023-11-09T15:21:56Z) - Boosting Fair Classifier Generalization through Adaptive Priority Reweighing [59.801444556074394]
より優れた一般化性を持つ性能向上フェアアルゴリズムが必要である。
本稿では,トレーニングデータとテストデータ間の分散シフトがモデル一般化性に与える影響を解消する適応的リライジング手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T13:04:55Z) - Learning to Select Pivotal Samples for Meta Re-weighting [12.73177872962048]
本研究では,大規模で不完全なトレーニングセットからこのようなメタサンプルを識別する方法を学習し,その後,クリーン化し,性能を最適化するために利用する。
学習フレームワークにおける2つのクラスタリング手法,Representation-based clustering method (RBC) と Gradient-based clustering method (GBC) を提案する。
論文 参考訳(メタデータ) (2023-02-09T03:04:40Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - FORML: Learning to Reweight Data for Fairness [2.105564340986074]
メタラーニング(FORML)によるフェアネス最適化リヘアリングについて紹介する。
FORMLは、トレーニングサンプル重量とニューラルネットワークのパラメータを共同最適化することで、公正性の制約と精度のバランスを取る。
また,FORMLは,既存の最先端再重み付け手法に比べて,画像分類タスクで約1%,顔予測タスクで約5%向上することを示した。
論文 参考訳(メタデータ) (2022-02-03T17:36:07Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - Learning Fast Sample Re-weighting Without Reward Data [41.92662851886547]
本稿では,新たな報酬データを必要としない学習ベース高速サンプル再重み付け手法を提案する。
実験により,提案手法は,ラベルノイズや長い尾の認識に関する芸術的状況と比較して,競争力のある結果が得られることを示した。
論文 参考訳(メタデータ) (2021-09-07T17:30:56Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。