論文の概要: Data and its (dis)contents: A survey of dataset development and use in
machine learning research
- arxiv url: http://arxiv.org/abs/2012.05345v1
- Date: Wed, 9 Dec 2020 22:13:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 03:09:08.700354
- Title: Data and its (dis)contents: A survey of dataset development and use in
machine learning research
- Title(参考訳): data and its (dis)contents: 機械学習研究におけるデータセットの開発と利用に関する調査
- Authors: Amandalynne Paullada, Inioluwa Deborah Raji, Emily M. Bender, Emily
Denton, Alex Hanna
- Abstract要約: 機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。
この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
- 参考スコア(独自算出の注目度): 11.042648980854487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Datasets have played a foundational role in the advancement of machine
learning research. They form the basis for the models we design and deploy, as
well as our primary medium for benchmarking and evaluation. Furthermore, the
ways in which we collect, construct and share these datasets inform the kinds
of problems the field pursues and the methods explored in algorithm
development. However, recent work from a breadth of perspectives has revealed
the limitations of predominant practices in dataset collection and use. In this
paper, we survey the many concerns raised about the way we collect and use data
in machine learning and advocate that a more cautious and thorough
understanding of data is necessary to address several of the practical and
ethical issues of the field.
- Abstract(参考訳): データセットは機械学習研究の発展に基礎的な役割を果たしてきた。
それらは、私たちが設計しデプロイするモデルの基礎となり、ベンチマークと評価のための主要な媒体を形成します。
さらに、これらのデータセットを収集、構築、共有する方法は、フィールドが追求する問題の種類とアルゴリズム開発で探究した手法を知らせる。
しかし、近年の研究は、データセットの収集と利用における主要なプラクティスの限界を明らかにしている。
本稿では,機械学習におけるデータの収集と利用に関する多くの懸念を調査し,この分野の実用的,倫理的な問題に対処するためには,より慎重で徹底的なデータ理解が必要であることを提唱する。
関連論文リスト
- Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and
Understanding -- A Survey [17.765458116029734]
現在、この研究領域における主要なテクニック、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠如しています。
この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。
既存の文献の強さ、限界、未探索領域、ギャップを識別し、この重要かつ急速に発展する分野における将来の研究の方向性についていくつかの洞察を提供する。
論文 参考訳(メタデータ) (2024-02-27T23:59:01Z) - A Survey on Data Selection for Language Models [151.6210632830082]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Towards Explainable Artificial Intelligence (XAI): A Data Mining
Perspective [35.620874971064765]
この研究は、データ収集、処理、分析が説明可能なAI(XAI)にどのように貢献するかを「データ中心」の視点で検証する。
我々は,既存の研究を,深層モデルの解釈,トレーニングデータの影響,ドメイン知識の洞察の3つのカテゴリに分類する。
具体的には、XAIの方法論を、モダリティをまたいだデータのトレーニングおよびテストに関するデータマイニング操作に蒸留する。
論文 参考訳(メタデータ) (2024-01-09T06:27:09Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Data-Centric Machine Learning for Geospatial Remote Sensing Data [14.875006009324721]
本研究では地理空間データに対する自動データ中心学習手法の定義と正確な分類について述べる。
我々は、補完的なデータ中心の視点に焦点を移すことが、エンドユーザーアプリケーションにおける精度、一般化能力、および真の影響のさらなる改善を達成するために必要であると主張している。
論文 参考訳(メタデータ) (2023-12-08T19:24:05Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and
Regulatory Norms [58.93352076927003]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Large Models for Time Series and Spatio-Temporal Data: A Survey and
Outlook [95.32949323258251]
時系列データ、特に時系列データと時間時間データは、現実世界のアプリケーションで広く使われている。
大規模言語やその他の基礎モデルの最近の進歩は、時系列データマイニングや時間データマイニングでの使用の増加に拍車を掛けている。
論文 参考訳(メタデータ) (2023-10-16T09:06:00Z) - CrowdWorkSheets: Accounting for Individual and Collective Identities
Underlying Crowdsourced Dataset Annotation [8.447159556925182]
クラウドソーシングされたデータセットアノテーションに関する倫理的考察の洞察を提供する文献を調査する。
1)アノテータが誰であるか、そして、アノテータの生きた経験がアノテーションにどのように影響するかである。
我々は、データセット開発者のための新しいフレームワークCrowdWorkSheetsを導入し、データアノテーションパイプラインのさまざまな段階における重要な決定ポイントの透過的なドキュメント化を容易にする。
論文 参考訳(メタデータ) (2022-06-09T23:31:17Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z) - Bringing the People Back In: Contesting Benchmark Machine Learning
Datasets [11.00769651520502]
機械学習データの系譜である研究プログラムを概説し、これらのデータセットの作成方法と理由について検討する。
機械学習におけるベンチマークデータセットを基盤として運用する方法を解説し、これらのデータセットについて4つの研究課題を提起する。
論文 参考訳(メタデータ) (2020-07-14T23:22:13Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。