論文の概要: The Human Labour of Data Work: Capturing Cultural Diversity through World Wide Dishes
- arxiv url: http://arxiv.org/abs/2502.05961v1
- Date: Sun, 09 Feb 2025 17:09:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 18:57:50.429297
- Title: The Human Labour of Data Work: Capturing Cultural Diversity through World Wide Dishes
- Title(参考訳): データワークの人間労働:世界規模での文化的多様性の獲得
- Authors: Siobhan Mackenzie Hall, Samantha Dalal, Raesetje Sefala, Foutse Yuehgoh, Aisha Alaagib, Imane Hamzaoui, Shu Ishida, Jabez Magomere, Lauren Crais, Aya Salama, Tejumade Afonja,
- Abstract要約: WWD(World Wide Dishes)の構築過程を反映して、機械学習(ML)アプリケーションのためのデータセット構築プロセスのウィンドウを提供する。
コミュニティメンバは研究プロセスの設計をガイドし、データセットを構築するためのクラウドソーシングの取り組みに従事します。
我々は,WWDの裏側研究チームからの反射を分析し,参加型デザイン作業の目に見えない労働力の実証的証拠を提示する。
- 参考スコア(独自算出の注目度): 3.770155074442168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a window into the process of constructing a dataset for machine learning (ML) applications by reflecting on the process of building World Wide Dishes (WWD), an image and text dataset consisting of culinary dishes and their associated customs from around the world. WWD takes a participatory approach to dataset creation: community members guide the design of the research process and engage in crowdsourcing efforts to build the dataset. WWD responds to calls in ML to address the limitations of web-scraped Internet datasets with curated, high-quality data incorporating localised expertise and knowledge. Our approach supports decentralised contributions from communities that have not historically contributed to datasets as a result of a variety of systemic factors. We contribute empirical evidence of the invisible labour of participatory design work by analysing reflections from the research team behind WWD. In doing so, we extend computer-supported cooperative work (CSCW) literature that examines the post-hoc impacts of datasets when deployed in ML applications by providing a window into the dataset construction process. We surface four dimensions of invisible labour in participatory dataset construction: building trust with community members, making participation accessible, supporting data production, and understanding the relationship between data and culture. This paper builds upon the rich participatory design literature within CSCW to guide how future efforts to apply participatory design to dataset construction can be designed in a way that attends to the dynamic, collaborative, and fundamentally human processes of dataset creation.
- Abstract(参考訳): WWD(World Wide Dishes)を構築する過程を反映して、機械学習(ML)アプリケーションのためのデータセットを構築するプロセスの窓口を提供する。
コミュニティメンバは研究プロセスの設計をガイドし、データセットを構築するためのクラウドソーシングの取り組みに従事します。
WWDは、ローカライズされた専門知識と知識を取り入れた、キュレートされた高品質なデータによって、Webスクラッドなインターネットデータセットの制限に対処するためのMLの呼び出しに応答する。
本手法は, 歴史的にデータセットに寄与していないコミュニティからの分散的コントリビューションを, 様々なシステム的要因の結果として支援する。
我々は,WWDの裏側研究チームからの反射を分析し,参加型デザイン作業の目に見えない労働力の実証的証拠を提示する。
そこで我々は,機械学習アプリケーションに展開する際のデータセットのポストホックな影響を,データセット構築プロセスへのウィンドウを提供することで検証するコンピュータ支援協調作業(CSCW)の文献を拡張した。
我々は、参加型データセット構築において、コミュニティメンバーとの信頼の構築、参加を可能とし、データ生産を支援し、データと文化の関係を理解することの4つの側面を明らかにする。
本稿では,CSCW内のリッチな参加型デザイン文献に基づいて,データセット構築への参加型デザインの適用に向けた今後の取り組みを,動的,協調的,根本的には人為的プロセスのデータセット作成に貢献する形で設計する方法について解説する。
関連論文リスト
- Running a Data Integration Lab in the Context of the EHRI Project: Challenges, Lessons Learnt and Future Directions [0.0]
EHRIプロジェクトは、この問題を軽減するために、アーカイブ、研究者、デジタル実践者の超国家的ネットワークを構築した。
主な成果の1つは、ホロコースト関連考古学資料の1つの中心的なプラットフォーム記述に集結する「仮想観測所」であるEHRIポータルの創設である。
Portalを構築するには強力なデータ識別と統合の努力が必要であり、EHRI-3データ統合ラボの創設でプロジェクトの第3フェーズに到達した。
論文 参考訳(メタデータ) (2025-05-05T08:39:18Z) - Amplify Initiative: Building A Localized Data Platform for Globalized AI [3.045104054104307]
現在のAIモデルは、トレーニングデータに英語と西洋のインターネットコンテンツが優勢であることを考えると、しばしばローカルコンテキストと言語を説明できない。
データプラットフォームと方法論であるAmplify Initiativeは、専門家コミュニティを活用して、さまざまな高品質なデータを収集し、これらのモデルの限界に対処する。
このプラットフォームは、データセットの共同作成を可能にし、高品質な多言語データセットへのアクセスを提供し、データ作者に認識を提供するように設計されている。
論文 参考訳(メタデータ) (2025-04-18T23:20:52Z) - From Community Network to Community Data: Towards Combining Data Pool and Data Cooperative for Data Justice in Rural Areas [0.0]
本研究では,農村部におけるコミュニティネットワーク(CN)からコミュニティデータへの移行について検討する。
データプールとデータコラボレーティブを組み合わせることで、データの正義と育成と、ただのAIエコシステムの実現に重点を置いている。
論文 参考訳(メタデータ) (2025-03-07T21:41:01Z) - Towards Human-Guided, Data-Centric LLM Co-Pilots [53.35493881390917]
CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。
高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。
CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
論文 参考訳(メタデータ) (2025-01-17T17:51:22Z) - Deploying Large Language Models With Retrieval Augmented Generation [0.21485350418225244]
Retrieval Augmented Generationは、大規模言語モデルのトレーニングセット外のデータソースからの知識を統合するための重要なアプローチとして登場した。
本稿では,LLMとRAGを統合して情報検索を行うパイロットプロジェクトの開発とフィールドテストから得られた知見について述べる。
論文 参考訳(メタデータ) (2024-11-07T22:11:51Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Social Intelligence Data Infrastructure: Structuring the Present and Navigating the Future [59.78608958395464]
私たちは、包括的な社会AI分類と480のNLPデータセットからなるデータライブラリで構成される、ソーシャルAIデータインフラストラクチャを構築しています。
インフラストラクチャにより、既存のデータセットの取り組みを分析し、異なるソーシャルインテリジェンスの観点から言語モデルのパフォーマンスを評価することができます。
多面的なデータセットの必要性、言語と文化の多様性の向上、より長期にわたる社会的状況、そして将来のソーシャルインテリジェンスデータ活動におけるよりインタラクティブなデータの必要性が示されている。
論文 参考訳(メタデータ) (2024-02-28T00:22:42Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Unveiling Diversity: Empowering OSS Project Leaders with Community
Diversity and Turnover Dashboards [51.67585198094836]
CommunityTapestryは動的リアルタイムコミュニティダッシュボードである。
それは、私たちが文献から特定した重要な多様性とターンオーバー信号を示します。
プロジェクトリーダが改善の領域を特定し、実行可能な情報を提供するのに役立ちました。
論文 参考訳(メタデータ) (2023-12-13T22:12:57Z) - CommunityAI: Towards Community-based Federated Learning [6.535815174238974]
コミュニティベースフェデレーション学習のための新しいフレームワークであるCommunityAIを提案する。
CommunityAIは、参加者の関心や専門知識、データ特性に基づいて、参加者をコミュニティにまとめることを可能にする。
我々は,解決すべき概念的アーキテクチャ,システム要件,プロセス,今後の課題について議論する。
論文 参考訳(メタデータ) (2023-11-29T09:31:52Z) - The Dimensions of Data Labor: A Road Map for Researchers, Activists, and
Policymakers to Empower Data Producers [14.392208044851976]
データプロデューサは、取得したデータ、使用方法、あるいはそのメリットについてはほとんど言及していません。
このデータにアクセスし、処理する能力を持つ組織、例えばOpenAIやGoogleは、テクノロジーのランドスケープを形成する上で大きな力を持っている。
研究者,政策立案者,活動家がデータ生産者に力を与える機会を概説する。
論文 参考訳(メタデータ) (2023-05-22T17:11:22Z) - Contributing to Accessibility Datasets: Reflections on Sharing Study
Data by Blind People [14.625384963263327]
13人の盲目の被験者がデータ収集活動に従事している2つの研究結果を示す。
リスク・ベネフィットのトレードオフを評価する際に、異なる要因が被験者の学習データ共有意欲にどのような影響を及ぼすかを確認する。
大多数は、技術改善のためにデータの共有をサポートしますが、商用利用、関連するメタデータ、およびデータの影響に関する透明性の欠如に対する懸念を表明しています。
論文 参考訳(メタデータ) (2023-03-09T00:42:18Z) - Data-centric AI: Perspectives and Challenges [51.70828802140165]
データ中心AI(DCAI)は、モデル進歩からデータ品質と信頼性の確保への根本的なシフトを提唱している。
データ開発、推論データ開発、データメンテナンスの3つの一般的なミッションをまとめます。
論文 参考訳(メタデータ) (2023-01-12T05:28:59Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Documenting Data Production Processes: A Participatory Approach for Data
Work [4.811554861191618]
機械学習データの不透明さは 倫理的なデータ処理と 知的なシステムにとって 重大な脅威です
これまでの研究では、データセットを文書化するための標準化されたチェックリストが提案されている。
本稿では,データセットのドキュメンテーションからデータ生成のドキュメンテーションへの視点転換を提案する。
論文 参考訳(メタデータ) (2022-07-11T15:39:02Z) - Understanding Machine Learning Practitioners' Data Documentation
Perceptions, Needs, Challenges, and Desiderata [10.689661834716613]
データは機械学習(ML)モデルの開発と評価の中心である。
責任あるAIの実践を促進するために、研究者と実践者はデータドキュメントの増加を提唱し始めた。
これらのデータドキュメンテーションフレームワークがML実践者のニーズを満たすかどうかについてはほとんど研究されていない。
論文 参考訳(メタデータ) (2022-06-06T21:55:39Z) - Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-03T13:49:36Z) - Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data
Programming [77.38174112525168]
私たちは、WS 学習パイプラインの全体的な生産性を、一般的な WS 監督アプローチと比較して平均20%(最大 47% のタスク)改善する、エンドツーエンドのインタラクティブなスーパービジョンシステムである Nemo を紹介します。
論文 参考訳(メタデータ) (2022-03-02T19:57:32Z) - Empowering Local Communities Using Artificial Intelligence [70.17085406202368]
人中心の観点から、AIが社会に与える影響を探求する上で重要なトピックとなっている。
市民科学におけるこれまでの研究は、AIを使って研究に大衆を巻き込む方法を特定してきた。
本稿では,コミュニティ市民科学にAIを適用する上での課題について論じる。
論文 参考訳(メタデータ) (2021-10-05T12:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。