論文の概要: Building Better Datasets: Seven Recommendations for Responsible Design from Dataset Creators
- arxiv url: http://arxiv.org/abs/2409.00252v1
- Date: Fri, 30 Aug 2024 20:52:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 16:02:27.233668
- Title: Building Better Datasets: Seven Recommendations for Responsible Design from Dataset Creators
- Title(参考訳): より良いデータセットを構築する: データセット作成者による責任ある設計のための7つの勧告
- Authors: Will Orr, Kate Crawford,
- Abstract要約: 我々は、この分野の現状について、主要なデータセット作成者18人にインタビューした。
私たちは、データセット作成者が直面している課題と考慮事項に光を当てました。
責任あるデータセット作成を改善するための7つの中心的なレコメンデーションを共有します。
- 参考スコア(独自算出の注目度): 0.5755004576310334
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The increasing demand for high-quality datasets in machine learning has raised concerns about the ethical and responsible creation of these datasets. Dataset creators play a crucial role in developing responsible practices, yet their perspectives and expertise have not yet been highlighted in the current literature. In this paper, we bridge this gap by presenting insights from a qualitative study that included interviewing 18 leading dataset creators about the current state of the field. We shed light on the challenges and considerations faced by dataset creators, and our findings underscore the potential for deeper collaboration, knowledge sharing, and collective development. Through a close analysis of their perspectives, we share seven central recommendations for improving responsible dataset creation, including issues such as data quality, documentation, privacy and consent, and how to mitigate potential harms from unintended use cases. By fostering critical reflection and sharing the experiences of dataset creators, we aim to promote responsible dataset creation practices and develop a nuanced understanding of this crucial but often undervalued aspect of machine learning research.
- Abstract(参考訳): 機械学習における高品質なデータセットの需要の増加は、これらのデータセットの倫理的かつ責任ある作成に対する懸念を引き起こしている。
データセットの作成者は、責任あるプラクティスを開発する上で重要な役割を果たすが、彼らの視点と専門性は、現在の文献でまだ強調されていない。
本稿では,このギャップを,現場の現状について18人の主要なデータセット作成者へのインタビューを含む質的研究から洞察を得ることによって埋める。
データセットの作成者が直面している課題や考慮事項について光を当て、私たちの発見は、より深いコラボレーション、知識共有、そして集団開発の可能性を強調しました。
彼らの視点を綿密に分析することで、データ品質やドキュメント、プライバシと同意といった問題や、意図しないユースケースによる潜在的な害を軽減する方法など、責任あるデータセット生成を改善するための7つの中心的な推奨事項を共有します。
データセット作成者の経験を批判的に反映し、共有することによって、責任あるデータセット作成プラクティスを促進し、機械学習研究において重要で、しばしば過小評価されるこの側面の微妙な理解を深めることを目指している。
関連論文リスト
- Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Open Datasheets: Machine-readable Documentation for Open Datasets and Responsible AI Assessments [9.125552623625806]
本稿では、オープンデータセットのための、ノーコードで機械可読なドキュメントフレームワークを紹介する。
このフレームワークは、オープンデータセットの理解性とユーザビリティを改善することを目的としている。
このフレームワークは、研究や意思決定に使用されるデータの質と信頼性を高めることが期待されている。
論文 参考訳(メタデータ) (2023-12-11T06:41:14Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - AUGUST: an Automatic Generation Understudy for Synthesizing
Conversational Recommendation Datasets [56.052803235932686]
本稿では,大規模かつ高品質なレコメンデーションダイアログを生成する新しい自動データセット合成手法を提案する。
i)従来のレコメンデーションデータセットからの豊富なパーソナライズされたユーザプロファイル、(ii)知識グラフからの豊富な外部知識、(iii)人間対人間会話レコメンデーションデータセットに含まれる会話能力。
論文 参考訳(メタデータ) (2023-06-16T05:27:14Z) - Embrace Limited and Imperfect Training Datasets: Opportunities and
Challenges in Plant Disease Recognition Using Deep Learning [5.526950086166696]
貧弱なデータセットを受け入れることは可能であり、これらのデータセットの使用に伴う課題を明確に定義することを目的としています。
我々は植物病の認識に重点を置いているが、貧しいデータセットの受け入れと分析の原則は農業を含む幅広い分野に適用可能であることを強調している。
論文 参考訳(メタデータ) (2023-05-19T08:58:09Z) - An Ethical Highlighter for People-Centric Dataset Creation [62.886916477131486]
本稿では,既存のデータセットの倫理的評価を導くための分析フレームワークを提案する。
我々の研究は、先行研究のレビューと分析によって知らされ、そのような倫理的課題が生じる場所を強調します。
論文 参考訳(メタデータ) (2020-11-27T07:18:44Z) - Towards Accountability for Machine Learning Datasets: Practices from
Software Engineering and Infrastructure [9.825840279544465]
機械学習を強化するデータセットは、しばしば使われ、共有され、再使用される。
本稿では、意思決定と説明責任をサポートするデータセット開発透明性のための厳格なフレームワークを紹介する。
論文 参考訳(メタデータ) (2020-10-23T01:57:42Z) - Bringing the People Back In: Contesting Benchmark Machine Learning
Datasets [11.00769651520502]
機械学習データの系譜である研究プログラムを概説し、これらのデータセットの作成方法と理由について検討する。
機械学習におけるベンチマークデータセットを基盤として運用する方法を解説し、これらのデータセットについて4つの研究課題を提起する。
論文 参考訳(メタデータ) (2020-07-14T23:22:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。