論文の概要: The State of Data Curation at NeurIPS: An Assessment of Dataset Development Practices in the Datasets and Benchmarks Track
- arxiv url: http://arxiv.org/abs/2410.22473v1
- Date: Tue, 29 Oct 2024 19:07:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:24:03.389681
- Title: The State of Data Curation at NeurIPS: An Assessment of Dataset Development Practices in the Datasets and Benchmarks Track
- Title(参考訳): NeurIPSにおけるデータキュレーションの現状:データセットとベンチマークトラックにおけるデータセット開発プラクティスの評価
- Authors: Eshta Bhardwaj, Harshit Gujral, Siyi Wu, Ciara Zogheib, Tegan Maharaj, Christoph Becker,
- Abstract要約: この研究は、データキュレーションのレンズを通してNeurIPSにおけるデータセット開発プラクティスの分析を提供する。
本稿では,ルーブリックとツールキットからなるデータセットドキュメンテーションの評価フレームワークを提案する。
結果は、環境のフットプリント、倫理的考慮、データ管理に関するドキュメントの必要性がさらに高まっていることを示している。
- 参考スコア(独自算出の注目度): 1.5993707490601146
- License:
- Abstract: Data curation is a field with origins in librarianship and archives, whose scholarship and thinking on data issues go back centuries, if not millennia. The field of machine learning is increasingly observing the importance of data curation to the advancement of both applications and fundamental understanding of machine learning models - evidenced not least by the creation of the Datasets and Benchmarks track itself. This work provides an analysis of dataset development practices at NeurIPS through the lens of data curation. We present an evaluation framework for dataset documentation, consisting of a rubric and toolkit developed through a literature review of data curation principles. We use the framework to assess the strengths and weaknesses in current dataset development practices of 60 datasets published in the NeurIPS Datasets and Benchmarks track from 2021-2023. We summarize key findings and trends. Results indicate greater need for documentation about environmental footprint, ethical considerations, and data management. We suggest targeted strategies and resources to improve documentation in these areas and provide recommendations for the NeurIPS peer-review process that prioritize rigorous data curation in ML. Finally, we provide results in the format of a dataset that showcases aspects of recommended data curation practices. Our rubric and results are of interest for improving data curation practices broadly in the field of ML as well as to data curation and science and technology studies scholars studying practices in ML. Our aim is to support continued improvement in interdisciplinary research on dataset practices, ultimately improving the reusability and reproducibility of new datasets and benchmarks, enabling standardized and informed human oversight, and strengthening the foundation of rigorous and responsible ML research.
- Abstract(参考訳): データキュレーションは図書館やアーカイブに起源を持つ分野であり、その学問やデータに関する考え方は、何世紀にもわたって遡る。
機械学習の分野は、両方のアプリケーションの進歩と機械学習モデルの基本的な理解に対するデータキュレーションの重要性をますます観察している。
この研究は、データキュレーションのレンズを通してNeurIPSにおけるデータセット開発プラクティスの分析を提供する。
本稿では,データキュレーションの原則の文献的レビューを通じて開発されたルーブリックとツールキットからなる,データセットドキュメンテーションの評価フレームワークを提案する。
フレームワークを使用して、2021-2023年のNeurIPS Datasets and Benchmarksで発表された60のデータセットの現在のデータセット開発プラクティスの長所と短所を評価します。
主要な発見と傾向を要約する。
結果は、環境のフットプリント、倫理的考慮、データ管理に関するドキュメントの必要性が高まっていることを示している。
我々はこれらの領域でドキュメントを改善するための戦略とリソースを目標とし、MLの厳格なデータキュレーションを優先するNeurIPSピアレビュープロセスに推奨する。
最後に、推奨データキュレーションプラクティスの側面を示すデータセットのフォーマットで結果を提供する。
本研究の成果は,ML分野におけるデータキュレーションの実践改善や,データキュレーションや科学技術研究の研究者によるMLにおける実践研究への関心である。
我々の目標は、データセットの実践に関する学際的な研究の継続的な改善を支援し、最終的に新しいデータセットとベンチマークの再利用性と再現性を改善し、標準化された人的監視を可能にし、厳密で責任あるML研究の基礎を強化することである。
関連論文リスト
- A Systematic Review of NeurIPS Dataset Management Practices [7.974245534539289]
我々はNeurIPSトラックで公開されたデータセットの体系的なレビューを行い、証明、配布、倫理的開示、ライセンスの4つの重要な側面に焦点を当てる。
この結果から, データセットの出現は不明瞭なフィルタリングやキュレーションのプロセスのため, しばしば不明瞭であることが明らかとなった。
これらの矛盾は、データセットの公開と管理のための標準化されたデータインフラストラクチャーの緊急の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-10-31T23:55:41Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Machine Learning Data Practices through a Data Curation Lens: An Evaluation Framework [1.5993707490601146]
機械学習におけるデータプラクティスをデータキュレーションの実践として評価する。
機械学習の研究者たちは、しばしばモデル開発を強調するが、標準的なデータキュレーションの原則を適用するのに苦労している。
論文 参考訳(メタデータ) (2024-05-04T16:21:05Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - A Medical Data-Effective Learning Benchmark for Highly Efficient Pre-training of Foundation Models [14.688139107248235]
大規模なデータセットで事前訓練されたファンデーションモデルは、前例のない一般化性を達成した。
本稿では,基礎モデルの事前学習において,最も影響の大きい方法でデータを活用することを目的とした,データ効率のよい学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T02:09:21Z) - Data Management For Training Large Language Models: A Survey [64.18200694790787]
大規模言語モデル(LLM)のトレーニングにおいて、データは基本的な役割を果たす
本調査は,LLMの事前学習および微調整段階におけるデータ管理の現状を概観するものである。
論文 参考訳(メタデータ) (2023-12-04T07:42:16Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。