論文の概要: Understanding Machine Learning Practitioners' Data Documentation
Perceptions, Needs, Challenges, and Desiderata
- arxiv url: http://arxiv.org/abs/2206.02923v1
- Date: Mon, 6 Jun 2022 21:55:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 06:43:43.592687
- Title: Understanding Machine Learning Practitioners' Data Documentation
Perceptions, Needs, Challenges, and Desiderata
- Title(参考訳): 機械学習実践者のデータドキュメンテーションの認識、ニーズ、課題、デシラタを理解する
- Authors: Amy Heger, Elizabeth B. Marquis, Mihaela Vorvoreanu, Hanna Wallach,
Jennifer Wortman Vaughan
- Abstract要約: データは機械学習(ML)モデルの開発と評価の中心である。
責任あるAIの実践を促進するために、研究者と実践者はデータドキュメントの増加を提唱し始めた。
これらのデータドキュメンテーションフレームワークがML実践者のニーズを満たすかどうかについてはほとんど研究されていない。
- 参考スコア(独自算出の注目度): 10.689661834716613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data is central to the development and evaluation of machine learning (ML)
models. However, the use of problematic or inappropriate datasets can result in
harms when the resulting models are deployed. To encourage responsible AI
practice through more deliberate reflection on datasets and transparency around
the processes by which they are created, researchers and practitioners have
begun to advocate for increased data documentation and have proposed several
data documentation frameworks. However, there is little research on whether
these data documentation frameworks meet the needs of ML practitioners, who
both create and consume datasets. To address this gap, we set out to understand
ML practitioners' data documentation perceptions, needs, challenges, and
desiderata, with the goal of deriving design requirements that can inform
future data documentation frameworks. We conducted a series of semi-structured
interviews with 14 ML practitioners at a single large, international technology
company. We had them answer a list of questions taken from datasheets for
datasets (Gebru, 2021). Our findings show that current approaches to data
documentation are largely ad hoc and myopic in nature. Participants expressed
needs for data documentation frameworks to be adaptable to their contexts,
integrated into their existing tools and workflows, and automated wherever
possible. Despite the fact that data documentation frameworks are often
motivated from the perspective of responsible AI, participants did not make the
connection between the questions that they were asked to answer and their
responsible AI implications. In addition, participants often had difficulties
prioritizing the needs of dataset consumers and providing information that
someone unfamiliar with their datasets might need to know. Based on these
findings, we derive seven design requirements for future data documentation
frameworks.
- Abstract(参考訳): データは機械学習(ML)モデルの開発と評価の中心である。
しかし、問題のあるデータセットや不適切なデータセットを使用することは、結果のモデルがデプロイされたときに害をもたらす可能性がある。
データセットに対するより慎重なリフレクションと、それらが作成されるプロセスに関する透明性を通じて、責任あるaiの実践を促進するために、研究者や実践者はデータドキュメントの増加を提唱し始め、いくつかのデータドキュメントフレームワークを提案している。
しかし、これらのデータドキュメンテーションフレームワークがデータセットを作成し、消費するML実践者のニーズを満たすかどうかについてはほとんど研究されていない。
このギャップに対処するため、私たちは、ML実践者のデータドキュメンテーションの認識、ニーズ、課題、そしてデシラタを理解するために、将来のデータドキュメンテーションフレームワークに通知できる設計要件の導出を目標にしました。
1つの大規模国際技術企業で14人のML実践者との半構造化インタビューを行った。
データセット用のdatasheets(gebru, 2021)から取られた質問のリストに答えてもらいました。
以上の結果から,データドキュメンテーションへの現在のアプローチは,本質的にはアドホックかつミオピックであることがわかった。
参加者は、データドキュメントフレームワークが自身のコンテキストに適応し、既存のツールやワークフローに統合され、可能な限り自動化される必要性を表明した。
データドキュメンテーションフレームワークは、しばしば責任あるAIの観点から動機づけられるという事実にもかかわらず、参加者は回答を求められた質問と責任あるAIの影響との間には関連性を持たなかった。
加えて、参加者はデータセット消費者のニーズを優先順位付けし、データセットに慣れていない人が知る必要がある情報を提供するのが困難だった。
これらの知見に基づいて、将来のデータドキュメンテーションフレームワークの設計要件を7つ導き出す。
関連論文リスト
- Capturing and Anticipating User Intents in Data Analytics via Knowledge Graphs [0.061446808540639365]
この研究は、人間中心の複雑な分析を捉えるための基本的なフレームワークとして、知識グラフ(KG)の使用について検討する。
生成されたKGに格納されたデータは、これらのシステムと対話するユーザーに補助(例えばレコメンデーション)を提供するために利用される。
論文 参考訳(メタデータ) (2024-11-01T20:45:23Z) - Data Formulator 2: Iteratively Creating Rich Visualizations with AI [65.48447317310442]
これらの課題に対処するためのLCMを利用した可視化システムであるData Formulator 2を提案する。
Data Formulator 2では、ユーザはUIと自然言語をブレンドして視覚化の意図を記述し、データ変換はAIに委譲される。
イテレーションをサポートするため、Data Formulator 2では、ユーザがイテレーション履歴をナビゲートし、以前の設計を新しい設計に再利用することで、毎回スクラッチから始める必要がない。
論文 参考訳(メタデータ) (2024-08-28T20:12:17Z) - A Standardized Machine-readable Dataset Documentation Format for Responsible AI [8.59437843168878]
Croissant-RAIは、AIデータセットの発見性、相互運用性、信頼性を高めるために設計された、機械可読なメタデータフォーマットである。
主要なデータ検索エンジン、リポジトリ、機械学習フレームワークに統合されている。
論文 参考訳(メタデータ) (2024-06-04T16:40:14Z) - Machine Learning Data Practices through a Data Curation Lens: An Evaluation Framework [1.5993707490601146]
機械学習におけるデータプラクティスをデータキュレーションの実践として評価する。
機械学習の研究者たちは、しばしばモデル開発を強調するが、標準的なデータキュレーションの原則を適用するのに苦労している。
論文 参考訳(メタデータ) (2024-05-04T16:21:05Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Navigating Dataset Documentations in AI: A Large-Scale Analysis of
Dataset Cards on Hugging Face [46.60562029098208]
私たちはHugging Faceで7,433のデータセットドキュメントを分析します。
本研究は,大規模データサイエンス分析によるデータセットの文書化に関するユニークな視点を提供する。
論文 参考訳(メタデータ) (2024-01-24T21:47:13Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Documenting Data Production Processes: A Participatory Approach for Data
Work [4.811554861191618]
機械学習データの不透明さは 倫理的なデータ処理と 知的なシステムにとって 重大な脅威です
これまでの研究では、データセットを文書化するための標準化されたチェックリストが提案されている。
本稿では,データセットのドキュメンテーションからデータ生成のドキュメンテーションへの視点転換を提案する。
論文 参考訳(メタデータ) (2022-07-11T15:39:02Z) - Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-03T13:49:36Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。