論文の概要: Documenting Data Production Processes: A Participatory Approach for Data
Work
- arxiv url: http://arxiv.org/abs/2207.04958v2
- Date: Tue, 9 Aug 2022 19:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 09:49:40.937459
- Title: Documenting Data Production Processes: A Participatory Approach for Data
Work
- Title(参考訳): データ生産プロセスの文書化:データ作業への参加的アプローチ
- Authors: Milagros Miceli, Tianling Yang, Adriana Alvarado Garcia, Julian
Posada, Sonja Mei Wang, Marc Pohl, Alex Hanna
- Abstract要約: 機械学習データの不透明さは 倫理的なデータ処理と 知的なシステムにとって 重大な脅威です
これまでの研究では、データセットを文書化するための標準化されたチェックリストが提案されている。
本稿では,データセットのドキュメンテーションからデータ生成のドキュメンテーションへの視点転換を提案する。
- 参考スコア(独自算出の注目度): 4.811554861191618
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The opacity of machine learning data is a significant threat to ethical data
work and intelligible systems. Previous research has addressed this issue by
proposing standardized checklists to document datasets. This paper expands that
field of inquiry by proposing a shift of perspective: from documenting datasets
toward documenting data production. We draw on participatory design and
collaborate with data workers at two companies located in Bulgaria and
Argentina, where the collection and annotation of data for machine learning are
outsourced. Our investigation comprises 2.5 years of research, including 33
semi-structured interviews, five co-design workshops, the development of
prototypes, and several feedback instances with participants. We identify key
challenges and requirements related to the integration of documentation
practices in real-world data production scenarios. Our findings comprise
important design considerations and highlight the value of designing data
documentation based on the needs of data workers. We argue that a view of
documentation as a boundary object, i.e., an object that can be used
differently across organizations and teams but holds enough immutable content
to maintain integrity, can be useful when designing documentation to retrieve
heterogeneous, often distributed, contexts of data production.
- Abstract(参考訳): 機械学習データの不透明さは、倫理的データワークと知性のあるシステムにとって大きな脅威である。
従来の研究は、標準化されたチェックリストをドキュメントデータセットに提案することでこの問題に対処してきた。
本稿では、データセットのドキュメンテーションからデータ生成のドキュメンテーションへという視点の転換を提案する。
我々は参加型設計を取り上げ,ブルガリアとアルゼンチンの2つの企業において,機械学習のためのデータの収集と注釈がアウトソースされている2つの企業のデータワーカーとコラボレーションする。
調査には,33の半構造化インタビュー,5つの共同設計ワークショップ,プロトタイプの開発,参加者とのフィードバックインスタンスなど,2.5年間の研究が含まれている。
実世界のデータ運用シナリオにおけるドキュメントプラクティスの統合に関する重要な課題と要件を特定します。
本研究は,データワーカのニーズに基づいて,データドキュメンテーションを設計することの価値を明らかにする。
ドキュメントをバウンダリオブジェクト、すなわち組織やチーム間で異なる方法で使用できるが、完全性を維持するのに十分な不変コンテンツを持つオブジェクトとして見ることは、データプロダクションの異種、しばしば分散したコンテキストを取得するためにドキュメントを設計する際に有用であると主張する。
関連論文リスト
- Using Large Language Models to Generate Authentic Multi-agent Knowledge Work Datasets [5.465422605475246]
現在公開されている知識作業データコレクションには、多様性、豊富なアノテーション、ユーザとそのドキュメントに関するコンテキスト情報がない。
本稿では,我々のアプローチの設計とビジョンを紹介するとともに,大規模言語モデルを用いた知識ワーク文書の作成に焦点をあてる。
実際の文書の53%と74%を現実的に評価した人間レイパーによる調査は、我々のアプローチの可能性を実証している。
論文 参考訳(メタデータ) (2024-09-06T13:53:28Z) - Navigating Dataset Documentations in AI: A Large-Scale Analysis of
Dataset Cards on Hugging Face [46.60562029098208]
私たちはHugging Faceで7,433のデータセットドキュメントを分析します。
本研究は,大規模データサイエンス分析によるデータセットの文書化に関するユニークな視点を提供する。
論文 参考訳(メタデータ) (2024-01-24T21:47:13Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Doc2Bot: Accessing Heterogeneous Documents via Conversational Bots [103.54897676954091]
Doc2Botは、ユーザーが会話を通じて情報を求めるのを助けるマシンを構築するためのデータセットである。
われわれのデータセットには、5つのドメインの中国の文書に基づく10万回以上のターンが含まれている。
論文 参考訳(メタデータ) (2022-10-20T07:33:05Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Understanding Machine Learning Practitioners' Data Documentation
Perceptions, Needs, Challenges, and Desiderata [10.689661834716613]
データは機械学習(ML)モデルの開発と評価の中心である。
責任あるAIの実践を促進するために、研究者と実践者はデータドキュメントの増加を提唱し始めた。
これらのデータドキュメンテーションフレームワークがML実践者のニーズを満たすかどうかについてはほとんど研究されていない。
論文 参考訳(メタデータ) (2022-06-06T21:55:39Z) - Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-03T13:49:36Z) - A Survey of Historical Document Image Datasets [2.8707038627097226]
本稿では,文書画像解析のための画像データセットの体系的な文献レビューを行う。
手書きの写本や初期の版画などの史料に焦点が当てられている。
歴史的文書分析のための適切なデータセットを見つけることは、異なる機械学習アルゴリズムを用いた研究を促進するための重要な前提条件である。
論文 参考訳(メタデータ) (2022-03-16T09:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。