論文の概要: Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning
Research
- arxiv url: http://arxiv.org/abs/2112.01716v1
- Date: Fri, 3 Dec 2021 05:01:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 14:18:45.074013
- Title: Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning
Research
- Title(参考訳): 削減、再利用、リサイクル:機械学習研究におけるデータセットの寿命
- Authors: Bernard Koch, Emily Denton, Alex Hanna, Jacob G. Foster
- Abstract要約: 我々は,データセットの利用パターンが,2015年から2020年にかけての機械学習サブコミュニティと時間にわたってどのように異なるかを検討した。
タスクコミュニティ内のデータセットに対する濃度の増加,タスクからのデータセットの大幅な採用,少数のエリート機関内に研究者が導入したデータセットへの集中,などが確認できた。
- 参考スコア(独自算出の注目度): 3.536605202672355
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Benchmark datasets play a central role in the organization of machine
learning research. They coordinate researchers around shared research problems
and serve as a measure of progress towards shared goals. Despite the
foundational role of benchmarking practices in this field, relatively little
attention has been paid to the dynamics of benchmark dataset use and reuse,
within or across machine learning subcommunities. In this paper, we dig into
these dynamics. We study how dataset usage patterns differ across machine
learning subcommunities and across time from 2015-2020. We find increasing
concentration on fewer and fewer datasets within task communities, significant
adoption of datasets from other tasks, and concentration across the field on
datasets that have been introduced by researchers situated within a small
number of elite institutions. Our results have implications for scientific
evaluation, AI ethics, and equity/access within the field.
- Abstract(参考訳): ベンチマークデータセットは、機械学習研究の組織において中心的な役割を果たす。
彼らは共有研究問題に関する研究者のコーディネートを行い、共通の目標に向けた進歩の尺度として機能する。
この分野におけるベンチマークプラクティスの基礎的な役割にもかかわらず、機械学習サブコミュニティ内、あるいはその間、ベンチマークデータセットの使用と再利用のダイナミクスには比較的注意が払われていない。
この論文では、これらのダイナミクスを掘り下げます。
2015年から2020年にかけて,機械学習サブコミュニティ間でデータセットの利用パターンの違いについて検討した。
タスクコミュニティ内のデータセットに対する濃度の増加,タスクからのデータセットの大幅な採用,少数のエリート機関内に研究者が導入したデータセットへの集中,などが確認できた。
我々の結果は、科学評価、AI倫理、および分野内の株式・アクセスに影響を及ぼす。
関連論文リスト
- Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Assessing Scientific Contributions in Data Sharing Spaces [64.16762375635842]
本稿では、研究者の科学的貢献を測定するブロックチェーンベースのメトリクスであるSCIENCE-indexを紹介する。
研究者にデータ共有のインセンティブを与えるため、SCIENCE-indexはデータ共有パラメータを含むように拡張されている。
本モデルは, 地理的に多様な研究者の出力分布とh-indexの分布を比較して評価する。
論文 参考訳(メタデータ) (2023-03-18T19:17:47Z) - On The Relevance Of The Differences Between HRTF Measurement Setups For
Machine Learning [0.24366811507669117]
空間オーディオは人気が急上昇しています
他の領域で成功した機械学習技術は、頭部関連伝達関数の測定にますます使われている。
複数のデータセットを組み合わせるのは魅力的だが、異なる条件下で測定される。
論文 参考訳(メタデータ) (2022-12-08T14:19:46Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Bridge Data: Boosting Generalization of Robotic Skills with Cross-Domain
Datasets [122.85598648289789]
マルチドメインとマルチタスクのデータセットが、新しい環境における新しいタスクの学習を改善する方法について検討する。
また、新しいドメイン内の少数のタスクのみのデータによって、ドメインギャップを埋めることができ、ロボットが他のドメインでしか見られなかったさまざまなタスクを実行できることもわかりました。
論文 参考訳(メタデータ) (2021-09-27T23:42:12Z) - Retiring Adult: New Datasets for Fair Machine Learning [47.27417042497261]
UCIアダルトは、多くのアルゴリズム的公正な介入の開発と比較の基礎として機能している。
UCIアダルトデータのスーパーセットを米国国勢調査資料から再構築し、その外部妥当性を制限するUCIアダルトデータセットの慣用性を明らかにする。
私たちの主な貢献は、公正な機械学習の研究のために既存のデータエコシステムを拡張する、一連の新しいデータセットです。
論文 参考訳(メタデータ) (2021-08-10T19:19:41Z) - Data and its (dis)contents: A survey of dataset development and use in
machine learning research [11.042648980854487]
機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。
この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
論文 参考訳(メタデータ) (2020-12-09T22:13:13Z) - Bringing the People Back In: Contesting Benchmark Machine Learning
Datasets [11.00769651520502]
機械学習データの系譜である研究プログラムを概説し、これらのデータセットの作成方法と理由について検討する。
機械学習におけるベンチマークデータセットを基盤として運用する方法を解説し、これらのデータセットについて4つの研究課題を提起する。
論文 参考訳(メタデータ) (2020-07-14T23:22:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。