Fugu-MT 論文翻訳(概要): Understanding Machine Learning Practitioners' Data Documentation Perceptions, Needs, Challenges, and Desiderata

論文の概要: Understanding Machine Learning Practitioners' Data Documentation Perceptions, Needs, Challenges, and Desiderata

arxiv url: http://arxiv.org/abs/2206.02923v1
Date: Mon, 6 Jun 2022 21:55:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-09 06:43:43.592687
Title: Understanding Machine Learning Practitioners' Data Documentation Perceptions, Needs, Challenges, and Desiderata
Title（参考訳）: 機械学習実践者のデータドキュメンテーションの認識、ニーズ、課題、デシラタを理解する
Authors: Amy Heger, Elizabeth B. Marquis, Mihaela Vorvoreanu, Hanna Wallach, Jennifer Wortman Vaughan
Abstract要約: データは機械学習(ML)モデルの開発と評価の中心である。責任あるAIの実践を促進するために、研究者と実践者はデータドキュメントの増加を提唱し始めた。これらのデータドキュメンテーションフレームワークがML実践者のニーズを満たすかどうかについてはほとんど研究されていない。
参考スコア（独自算出の注目度）: 10.689661834716613
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data is central to the development and evaluation of machine learning (ML) models. However, the use of problematic or inappropriate datasets can result in harms when the resulting models are deployed. To encourage responsible AI practice through more deliberate reflection on datasets and transparency around the processes by which they are created, researchers and practitioners have begun to advocate for increased data documentation and have proposed several data documentation frameworks. However, there is little research on whether these data documentation frameworks meet the needs of ML practitioners, who both create and consume datasets. To address this gap, we set out to understand ML practitioners' data documentation perceptions, needs, challenges, and desiderata, with the goal of deriving design requirements that can inform future data documentation frameworks. We conducted a series of semi-structured interviews with 14 ML practitioners at a single large, international technology company. We had them answer a list of questions taken from datasheets for datasets (Gebru, 2021). Our findings show that current approaches to data documentation are largely ad hoc and myopic in nature. Participants expressed needs for data documentation frameworks to be adaptable to their contexts, integrated into their existing tools and workflows, and automated wherever possible. Despite the fact that data documentation frameworks are often motivated from the perspective of responsible AI, participants did not make the connection between the questions that they were asked to answer and their responsible AI implications. In addition, participants often had difficulties prioritizing the needs of dataset consumers and providing information that someone unfamiliar with their datasets might need to know. Based on these findings, we derive seven design requirements for future data documentation frameworks.
Abstract（参考訳）: データは機械学習(ML)モデルの開発と評価の中心である。しかし、問題のあるデータセットや不適切なデータセットを使用することは、結果のモデルがデプロイされたときに害をもたらす可能性がある。データセットに対するより慎重なリフレクションと、それらが作成されるプロセスに関する透明性を通じて、責任あるaiの実践を促進するために、研究者や実践者はデータドキュメントの増加を提唱し始め、いくつかのデータドキュメントフレームワークを提案している。しかし、これらのデータドキュメンテーションフレームワークがデータセットを作成し、消費するML実践者のニーズを満たすかどうかについてはほとんど研究されていない。このギャップに対処するため、私たちは、ML実践者のデータドキュメンテーションの認識、ニーズ、課題、そしてデシラタを理解するために、将来のデータドキュメンテーションフレームワークに通知できる設計要件の導出を目標にしました。 1つの大規模国際技術企業で14人のML実践者との半構造化インタビューを行った。データセット用のdatasheets(gebru, 2021)から取られた質問のリストに答えてもらいました。以上の結果から,データドキュメンテーションへの現在のアプローチは,本質的にはアドホックかつミオピックであることがわかった。参加者は、データドキュメントフレームワークが自身のコンテキストに適応し、既存のツールやワークフローに統合され、可能な限り自動化される必要性を表明した。データドキュメンテーションフレームワークは、しばしば責任あるAIの観点から動機づけられるという事実にもかかわらず、参加者は回答を求められた質問と責任あるAIの影響との間には関連性を持たなかった。加えて、参加者はデータセット消費者のニーズを優先順位付けし、データセットに慣れていない人が知る必要がある情報を提供するのが困難だった。これらの知見に基づいて、将来のデータドキュメンテーションフレームワークの設計要件を7つ導き出す。

関連論文リスト

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文参考訳（メタデータ） (2026-01-22T12:02:45Z)
Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。 DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文参考訳（メタデータ） (2025-09-29T17:23:08Z)
Data Requirement Goal Modeling for Machine Learning Systems [0.8854624631197942]
本研究は,機械学習システムにおけるデータ要件の特定において,非専門家を導くアプローチを提案する。我々はまず,白書を調査し,データ要求目標モデル(DRGM)を開発した。次に、実世界のプロジェクトに基づいた2つの実証的な例を通して、このアプローチを検証する。
論文参考訳（メタデータ） (2025-04-10T11:30:25Z)
Datasheets for AI and medical datasets (DAIMS): a data validation and documentation framework before machine learning analysis in medical research [0.0]
フレームワークを"AIと医療データセットのためのデータシート - DAIMS"に拡張します。我々の公開ソリューションであるDAIMSは、データの標準化要件を含むチェックリストを提供します。チェックリストは24の共通データ標準化要件で構成されており、ツールがチェックし、そのサブセットを検証する。
論文参考訳（メタデータ） (2025-01-23T21:02:56Z)
Capturing and Anticipating User Intents in Data Analytics via Knowledge Graphs [0.061446808540639365]
この研究は、人間中心の複雑な分析を捉えるための基本的なフレームワークとして、知識グラフ(KG)の使用について検討する。生成されたKGに格納されたデータは、これらのシステムと対話するユーザーに補助(例えばレコメンデーション)を提供するために利用される。
論文参考訳（メタデータ） (2024-11-01T20:45:23Z)
Synthetic Data Generation with Large Language Models for Personalized Community Question Answering [47.300506002171275]
既存のデータセットであるSE-PQAに基づいてSy-SE-PQAを構築します。以上の結果から,LCMはユーザのニーズに合わせてデータを生成する可能性が高いことが示唆された。合成データは、たとえ生成されたデータが誤った情報を含むとしても、人書きのトレーニングデータを置き換えることができる。
論文参考訳（メタデータ） (2024-10-29T16:19:08Z)
Data Formulator 2: Iteratively Creating Rich Visualizations with AI [65.48447317310442]
これらの課題に対処するためのLCMを利用した可視化システムであるData Formulator 2を提案する。 Data Formulator 2では、ユーザはUIと自然言語をブレンドして視覚化の意図を記述し、データ変換はAIに委譲される。イテレーションをサポートするため、Data Formulator 2では、ユーザがイテレーション履歴をナビゲートし、以前の設計を新しい設計に再利用することで、毎回スクラッチから始める必要がない。
論文参考訳（メタデータ） (2024-08-28T20:12:17Z)
A Standardized Machine-readable Dataset Documentation Format for Responsible AI [8.59437843168878]
Croissant-RAIは、AIデータセットの発見性、相互運用性、信頼性を高めるために設計された、機械可読なメタデータフォーマットである。主要なデータ検索エンジン、リポジトリ、機械学習フレームワークに統合されている。
論文参考訳（メタデータ） (2024-06-04T16:40:14Z)
Machine Learning Data Practices through a Data Curation Lens: An Evaluation Framework [1.5993707490601146]
機械学習におけるデータプラクティスをデータキュレーションの実践として評価する。機械学習の研究者たちは、しばしばモデル開発を強調するが、標準的なデータキュレーションの原則を適用するのに苦労している。
論文参考訳（メタデータ） (2024-05-04T16:21:05Z)
The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。 LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文参考訳（メタデータ） (2024-03-23T09:26:15Z)
Navigating Dataset Documentations in AI: A Large-Scale Analysis of Dataset Cards on Hugging Face [46.60562029098208]
私たちはHugging Faceで7,433のデータセットドキュメントを分析します。本研究は,大規模データサイエンス分析によるデータセットの文書化に関するユニークな視点を提供する。
論文参考訳（メタデータ） (2024-01-24T21:47:13Z)
Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2023-11-22T22:15:17Z)
On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T14:01:53Z)
Documenting Data Production Processes: A Participatory Approach for Data Work [4.811554861191618]
機械学習データの不透明さは倫理的なデータ処理と知的なシステムにとって重大な脅威ですこれまでの研究では、データセットを文書化するための標準化されたチェックリストが提案されている。本稿では,データセットのドキュメンテーションからデータ生成のドキュメンテーションへの視点転換を提案する。
論文参考訳（メタデータ） (2022-07-11T15:39:02Z)
Data Cards: Purposeful and Transparent Dataset Documentation for Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文参考訳（メタデータ） (2022-04-03T13:49:36Z)
REGRAD: A Large-Scale Relational Grasp Dataset for Safe and Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。データセットは2D画像と3Dポイントクラウドの両方で収集されます。ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文参考訳（メタデータ） (2021-04-29T05:31:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。