論文の概要: Bias Begins with Data: The FairGround Corpus for Robust and Reproducible Research on Algorithmic Fairness
- arxiv url: http://arxiv.org/abs/2510.22363v1
- Date: Sat, 25 Oct 2025 16:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.110504
- Title: Bias Begins with Data: The FairGround Corpus for Robust and Reproducible Research on Algorithmic Fairness
- Title(参考訳): Bias Begins with Data: The FairGround Corpus for Robust and Reproducible Research on Algorithmic Fairness
- Authors: Jan Simson, Alessandro Fabris, Cosima Fröhner, Frauke Kreuter, Christoph Kern,
- Abstract要約: 機械学習(ML)システムは、高い意思決定領域でますます採用されている。
公正なML研究の核心は、バイアスを調査し、緩和戦略を開発するために使用されるデータセットである。
FairGround: 再現可能な研究を進めることを目的とした統合フレームワーク,データコーパス,Pythonパッケージ。
- 参考スコア(独自算出の注目度): 42.93319580186729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As machine learning (ML) systems are increasingly adopted in high-stakes decision-making domains, ensuring fairness in their outputs has become a central challenge. At the core of fair ML research are the datasets used to investigate bias and develop mitigation strategies. Yet, much of the existing work relies on a narrow selection of datasets--often arbitrarily chosen, inconsistently processed, and lacking in diversity--undermining the generalizability and reproducibility of results. To address these limitations, we present FairGround: a unified framework, data corpus, and Python package aimed at advancing reproducible research and critical data studies in fair ML classification. FairGround currently comprises 44 tabular datasets, each annotated with rich fairness-relevant metadata. Our accompanying Python package standardizes dataset loading, preprocessing, transformation, and splitting, streamlining experimental workflows. By providing a diverse and well-documented dataset corpus along with robust tooling, FairGround enables the development of fairer, more reliable, and more reproducible ML models. All resources are publicly available to support open and collaborative research.
- Abstract(参考訳): 機械学習(ML)システムは、ハイテイクな意思決定領域にますます採用されているため、アウトプットの公平性を保証することが、中心的な課題となっている。
公正なML研究の核心は、バイアスを調査し、緩和戦略を開発するために使用されるデータセットである。
しかし、既存の研究の多くは、任意に選択され、矛盾なく処理され、多様性が欠如し、結果の一般化性と再現性が損なわれるような、限られたデータセットの選択に依存している。
これらの制限に対処するために、FairGround: 統一されたフレームワーク、データコーパス、Pythonパッケージを提示する。
FairGroundは現在、44のグラフデータセットで構成されており、それぞれに豊富なフェアネス関連メタデータがアノテートされている。
付随するPythonパッケージは、データセットの読み込み、前処理、変換、分割、実験ワークフローの合理化を標準化しています。
多様な文書化されたデータセットコーパスと堅牢なツーリングを提供することで、FairGroundはより公平で信頼性が高く、再現可能なMLモデルの開発を可能にする。
すべてのリソースは、オープンで協調的な研究をサポートするために公開されています。
関連論文リスト
- Generating Diverse Synthetic Datasets for Evaluation of Real-life Recommender Systems [0.0]
合成データセットは、機械学習モデルの評価とテストに重要である。
我々は,多様かつ統計的に一貫性のある合成データセットを生成するための新しいフレームワークを開発する。
このフレームワークは、最小限の摩擦で研究を容易にする無料のオープンPythonパッケージとして利用できる。
論文 参考訳(メタデータ) (2024-11-27T09:53:14Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - balance -- a Python package for balancing biased data samples [0.0]
我々はMetaによるオープンソースのPythonパッケージである Balanceを紹介し、バイアスデータサンプルを分析し、調整するためのシンプルなワークフローを提供する。
このパッケージは、研究者やデータサイエンティストがさまざまな分野のさまざまなデータから利用できるシンプルなAPIを提供する。
論文 参考訳(メタデータ) (2023-07-12T09:09:49Z) - Quality Not Quantity: On the Interaction between Dataset Design and
Robustness of CLIP [43.7219097444333]
ここでは,CLIPにおける事前学習分布がロバスト性をいかに引き起こすかを調べるために,公開されている6つのデータソースのテストベッドを紹介する。
その結果,事前学習データの性能は分布変化によって大きく異なることがわかった。
複数のソースを組み合わせることで、必ずしもより良いモデルが得られるのではなく、最高の個々のデータソースのロバスト性を希薄にする。
論文 参考訳(メタデータ) (2022-08-10T18:24:23Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。
そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。
提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文 参考訳(メタデータ) (2022-03-24T09:08:05Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。