論文の概要: Optimal Transport for Fairness: Archival Data Repair using Small Research Data Sets
- arxiv url: http://arxiv.org/abs/2403.13864v1
- Date: Wed, 20 Mar 2024 09:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 18:18:59.183708
- Title: Optimal Transport for Fairness: Archival Data Repair using Small Research Data Sets
- Title(参考訳): フェアネスのための最適輸送:小さな研究データセットを用いたアーカイブデータ修復
- Authors: Abigail Langbridge, Anthony Quinn, Robert Shorten,
- Abstract要約: 我々は保護属性(S$)と保護されていない属性(U$)の条件独立性の観点から公正性を定義する。
我々はこれらのデータのごく一部だけを用いて、アーカイブデータのトレントを修復する必要がある重要な設定(研究データ)に対処する(S|U$-labelled)。
我々の業績は、大量のオフサンプル、ラベル付き(アーキバル)データを効果的に修復できることを実証している。
- 参考スコア(独自算出の注目度): 1.9540085115923316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advent of the AI Act and other regulations, there is now an urgent need for algorithms that repair unfairness in training data. In this paper, we define fairness in terms of conditional independence between protected attributes ($S$) and features ($X$), given unprotected attributes ($U$). We address the important setting in which torrents of archival data need to be repaired, using only a small proportion of these data, which are $S|U$-labelled (the research data). We use the latter to design optimal transport (OT)-based repair plans on interpolated supports. This allows {\em off-sample}, labelled, archival data to be repaired, subject to stationarity assumptions. It also significantly reduces the size of the supports of the OT plans, with correspondingly large savings in the cost of their design and of their {\em sequential\/} application to the off-sample data. We provide detailed experimental results with simulated and benchmark real data (the Adult data set). Our performance figures demonstrate effective repair -- in the sense of quenching conditional dependence -- of large quantities of off-sample, labelled (archival) data.
- Abstract(参考訳): AI法やその他の規制の出現により、トレーニングデータの不正性を修復するアルゴリズムが緊急に必要になった。
本稿では、保護属性(S$)と非保護属性(U$)の条件独立性の観点から公正性を定義する。
本稿では,これらのデータのうちわずかにS|U$-labelled(研究データ)を用いて,アーカイブデータのトレントを修復する必要がある重要な設定に対処する。
補間支援のための最適輸送(OT)ベースの補修計画の設計に後者を用いる。
これにより、固定性仮定の下で、ラベル付けされたアーカイブデータを修復することができる。
また、OTプランのサポートのサイズを大幅に削減し、設計コストとオフサンプルデータへのアプリケーションである {\em sequence\/} の大幅な削減を実現した。
実データ(アダルトデータセット)のシミュレーションとベンチマークによる詳細な実験結果を提供する。
我々の業績は、大量のオフサンプル、ラベル付き(アーキバル)データの効果的な修復(クエンチング条件依存)を実証している。
関連論文リスト
- Overcoming Representation Bias in Fairness-Aware data Repair using Optimal Transport [1.9540085115923316]
最適輸送(OT)は、公平さを増進する方法でデータ分布を変換する上で重要な役割を持つ。
ベイズ的非パラメトリック停止規則を用いて,データ分布の属性ラベル成分を学習する。
OT-最適量子化演算子は、アーカイブデータの修復に使用できる。
我々は、変換されたデータの損傷に対して公正さを交換できる量化器とともに、公平な分布目標の新たな定義を定式化する。
論文 参考訳(メタデータ) (2024-10-03T11:06:22Z) - DRUPI: Dataset Reduction Using Privileged Information [20.59889438709671]
データセットリダクション(DR)は、ターゲットタスクのパフォーマンスを維持しながら、大規模なデータセットからより小さなサブセットにサンプルを選択または蒸留する。
本稿では,DRUPI(Privleged Information)を用いたデータセットリダクションについて紹介する。
我々の研究結果によると、効果的な特徴ラベルは過度に差別的かつ過度に多様性があり、中程度のレベルがデータセットの有効性を改善するのに最適であることが判明した。
論文 参考訳(メタデータ) (2024-10-02T14:49:05Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。
提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。
本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文 参考訳(メタデータ) (2022-10-06T16:52:38Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。