論文の概要: Bringing the People Back In: Contesting Benchmark Machine Learning
Datasets
- arxiv url: http://arxiv.org/abs/2007.07399v1
- Date: Tue, 14 Jul 2020 23:22:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 01:50:46.071419
- Title: Bringing the People Back In: Contesting Benchmark Machine Learning
Datasets
- Title(参考訳): 人々を復活させる - ベンチマーク機械学習データセットのコンテスト
- Authors: Emily Denton, Alex Hanna, Razvan Amironesei, Andrew Smart, Hilary
Nicole, Morgan Klaus Scheuerman
- Abstract要約: 機械学習データの系譜である研究プログラムを概説し、これらのデータセットの作成方法と理由について検討する。
機械学習におけるベンチマークデータセットを基盤として運用する方法を解説し、これらのデータセットについて4つの研究課題を提起する。
- 参考スコア(独自算出の注目度): 11.00769651520502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In response to algorithmic unfairness embedded in sociotechnical systems,
significant attention has been focused on the contents of machine learning
datasets which have revealed biases towards white, cisgender, male, and Western
data subjects. In contrast, comparatively less attention has been paid to the
histories, values, and norms embedded in such datasets. In this work, we
outline a research program - a genealogy of machine learning data - for
investigating how and why these datasets have been created, what and whose
values influence the choices of data to collect, the contextual and contingent
conditions of their creation. We describe the ways in which benchmark datasets
in machine learning operate as infrastructure and pose four research questions
for these datasets. This interrogation forces us to "bring the people back in"
by aiding us in understanding the labor embedded in dataset construction, and
thereby presenting new avenues of contestation for other researchers
encountering the data.
- Abstract(参考訳): 社会技術システムに埋め込まれたアルゴリズム上の不公平さに対して、白人、シスジェンダー、男性、西洋のデータ被験者に対する偏見を明らかにする機械学習データセットの内容に注目が集まっている。
対照的に、そのようなデータセットに埋め込まれた履歴、値、規範に比較的注意が払われていない。
本稿では,機械学習データの系譜である研究プログラムを概説し,これらのデータセットが作成されている理由,収集すべきデータの選択にどのような影響を与えるか,それらの生成の文脈的条件と付随的条件について検討する。
機械学習におけるベンチマークデータセットを基盤として運用する方法を説明し、これらのデータセットについて4つの研究課題を提起する。
この尋問は、データセット構築に埋め込まれた労働力を理解し、データに遭遇する他の研究者に対する新たなコンテストの道を示すことで、私たちを「人々を取り戻す」よう促します。
関連論文リスト
- Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and
Regulatory Norms [58.93352076927003]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning
Research [3.536605202672355]
我々は,データセットの利用パターンが,2015年から2020年にかけての機械学習サブコミュニティと時間にわたってどのように異なるかを検討した。
タスクコミュニティ内のデータセットに対する濃度の増加,タスクからのデータセットの大幅な採用,少数のエリート機関内に研究者が導入したデータセットへの集中,などが確認できた。
論文 参考訳(メタデータ) (2021-12-03T05:01:47Z) - A survey on datasets for fairness-aware machine learning [6.962333053044713]
多くのフェアネス対応機械学習ソリューションが提案されている。
本稿では,フェアネスを意識した機械学習に使用される実世界のデータセットについて概説する。
データセットのバイアスと公平性についてより深く理解するために、探索分析を用いて興味深い関係を考察する。
論文 参考訳(メタデータ) (2021-10-01T16:54:04Z) - Retiring Adult: New Datasets for Fair Machine Learning [47.27417042497261]
UCIアダルトは、多くのアルゴリズム的公正な介入の開発と比較の基礎として機能している。
UCIアダルトデータのスーパーセットを米国国勢調査資料から再構築し、その外部妥当性を制限するUCIアダルトデータセットの慣用性を明らかにする。
私たちの主な貢献は、公正な機械学習の研究のために既存のデータエコシステムを拡張する、一連の新しいデータセットです。
論文 参考訳(メタデータ) (2021-08-10T19:19:41Z) - Data and its (dis)contents: A survey of dataset development and use in
machine learning research [11.042648980854487]
機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。
この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
論文 参考訳(メタデータ) (2020-12-09T22:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。