論文の概要: The Human Labour of Data Work: Capturing Cultural Diversity through World Wide Dishes
- arxiv url: http://arxiv.org/abs/2502.05961v2
- Date: Mon, 05 May 2025 16:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 14:44:43.916965
- Title: The Human Labour of Data Work: Capturing Cultural Diversity through World Wide Dishes
- Title(参考訳): データワークの人間労働:世界規模での文化的多様性の獲得
- Authors: Siobhan Mackenzie Hall, Samantha Dalal, Raesetje Sefala, Foutse Yuehgoh, Aisha Alaagib, Imane Hamzaoui, Shu Ishida, Jabez Magomere, Lauren Crais, Aya Salama, Tejumade Afonja,
- Abstract要約: 本稿では、コミュニティメンバーが研究プロセスの設計を指導し、クラウドソースされたデータセットに貢献する参加型データセット作成の例を示す。
このアプローチは,コミュニティからの分散型コントリビューションを支援する,キュレートされた高品質なデータをもたらす可能性があることを示す。
我々は,参加型データセット構築に不可欠な参加型仲介者による労働の3次元を探索する。
- 参考スコア(独自算出の注目度): 3.770155074442168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper provides guidance for building and maintaining infrastructure for participatory AI efforts by sharing reflections on building World Wide Dishes (WWD), a bottom-up, community-led image and text dataset of culinary dishes and associated cultural customs. We present WWD as an example of participatory dataset creation, where community members both guide the design of the research process and contribute to the crowdsourced dataset. This approach incorporates localised expertise and knowledge to address the limitations of web-scraped Internet datasets acknowledged in the Participatory AI discourse. We show that our approach can result in curated, high-quality data that supports decentralised contributions from communities that do not typically contribute to datasets due to a variety of systemic factors. Our project demonstrates the importance of participatory mediators in supporting community engagement by identifying the kinds of labour they performed to make WWD possible. We surface three dimensions of labour performed by participatory mediators that are crucial for participatory dataset construction: building trust with community members, making participation accessible, and contextualising community values to support meaningful data collection. Drawing on our findings, we put forth five lessons for building infrastructure to support future participatory AI efforts.
- Abstract(参考訳): 本稿では,料理と関連する文化習慣のボトムアップでコミュニティ主導のイメージとテキストデータセットであるWorld Wide Dishes(WWD)構築に対するリフレクションを共有することで,参加型AI活動のためのインフラストラクチャの構築と維持のためのガイダンスを提供する。
我々は、WWDを参加型データセット作成の例として、コミュニティメンバーが研究プロセスの設計を指導し、クラウドソースされたデータセットに貢献する例を示す。
このアプローチでは、ローカル化された専門知識を取り入れて、参加型AI談話で認められたWebスクラッドインターネットデータセットの制限に対処する。
我々のアプローチは、様々なシステム的要因により一般的にデータセットに寄与しないコミュニティからの分散コントリビューションをサポートする、キュレートされた高品質なデータをもたらす可能性があることを示す。
本研究は,WWDを実現するために実施した作業の種類を特定することにより,コミュニティ参加を支援するための参加仲介者の重要性を実証するものである。
我々は、参加型データセット構築に不可欠な参加型仲介者による労働の3つの次元を、コミュニティメンバーとの信頼の構築、参加を可能とし、有意義なデータ収集を支援するためにコミュニティ価値の文脈化を行う。
我々の研究結果に基づいて、将来の参加型AI活動を支援するためのインフラを構築するための5つの教訓を提示した。
関連論文リスト
- Running a Data Integration Lab in the Context of the EHRI Project: Challenges, Lessons Learnt and Future Directions [0.0]
EHRIプロジェクトは、この問題を軽減するために、アーカイブ、研究者、デジタル実践者の超国家的ネットワークを構築した。
主な成果の1つは、ホロコースト関連考古学資料の1つの中心的なプラットフォーム記述に集結する「仮想観測所」であるEHRIポータルの創設である。
Portalを構築するには強力なデータ識別と統合の努力が必要であり、EHRI-3データ統合ラボの創設でプロジェクトの第3フェーズに到達した。
論文 参考訳(メタデータ) (2025-05-05T08:39:18Z) - Amplify Initiative: Building A Localized Data Platform for Globalized AI [3.045104054104307]
現在のAIモデルは、トレーニングデータに英語と西洋のインターネットコンテンツが優勢であることを考えると、しばしばローカルコンテキストと言語を説明できない。
データプラットフォームと方法論であるAmplify Initiativeは、専門家コミュニティを活用して、さまざまな高品質なデータを収集し、これらのモデルの限界に対処する。
このプラットフォームは、データセットの共同作成を可能にし、高品質な多言語データセットへのアクセスを提供し、データ作者に認識を提供するように設計されている。
論文 参考訳(メタデータ) (2025-04-18T23:20:52Z) - From Community Network to Community Data: Towards Combining Data Pool and Data Cooperative for Data Justice in Rural Areas [0.0]
本研究では,農村部におけるコミュニティネットワーク(CN)からコミュニティデータへの移行について検討する。
データプールとデータコラボレーティブを組み合わせることで、データの正義と育成と、ただのAIエコシステムの実現に重点を置いている。
論文 参考訳(メタデータ) (2025-03-07T21:41:01Z) - Towards Human-Guided, Data-Centric LLM Co-Pilots [53.35493881390917]
CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。
高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。
CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
論文 参考訳(メタデータ) (2025-01-17T17:51:22Z) - Deploying Large Language Models With Retrieval Augmented Generation [0.21485350418225244]
Retrieval Augmented Generationは、大規模言語モデルのトレーニングセット外のデータソースからの知識を統合するための重要なアプローチとして登場した。
本稿では,LLMとRAGを統合して情報検索を行うパイロットプロジェクトの開発とフィールドテストから得られた知見について述べる。
論文 参考訳(メタデータ) (2024-11-07T22:11:51Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Social Intelligence Data Infrastructure: Structuring the Present and Navigating the Future [59.78608958395464]
私たちは、包括的な社会AI分類と480のNLPデータセットからなるデータライブラリで構成される、ソーシャルAIデータインフラストラクチャを構築しています。
インフラストラクチャにより、既存のデータセットの取り組みを分析し、異なるソーシャルインテリジェンスの観点から言語モデルのパフォーマンスを評価することができます。
多面的なデータセットの必要性、言語と文化の多様性の向上、より長期にわたる社会的状況、そして将来のソーシャルインテリジェンスデータ活動におけるよりインタラクティブなデータの必要性が示されている。
論文 参考訳(メタデータ) (2024-02-28T00:22:42Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Unveiling Diversity: Empowering OSS Project Leaders with Community
Diversity and Turnover Dashboards [51.67585198094836]
CommunityTapestryは動的リアルタイムコミュニティダッシュボードである。
それは、私たちが文献から特定した重要な多様性とターンオーバー信号を示します。
プロジェクトリーダが改善の領域を特定し、実行可能な情報を提供するのに役立ちました。
論文 参考訳(メタデータ) (2023-12-13T22:12:57Z) - CommunityAI: Towards Community-based Federated Learning [6.535815174238974]
コミュニティベースフェデレーション学習のための新しいフレームワークであるCommunityAIを提案する。
CommunityAIは、参加者の関心や専門知識、データ特性に基づいて、参加者をコミュニティにまとめることを可能にする。
我々は,解決すべき概念的アーキテクチャ,システム要件,プロセス,今後の課題について議論する。
論文 参考訳(メタデータ) (2023-11-29T09:31:52Z) - The Dimensions of Data Labor: A Road Map for Researchers, Activists, and
Policymakers to Empower Data Producers [14.392208044851976]
データプロデューサは、取得したデータ、使用方法、あるいはそのメリットについてはほとんど言及していません。
このデータにアクセスし、処理する能力を持つ組織、例えばOpenAIやGoogleは、テクノロジーのランドスケープを形成する上で大きな力を持っている。
研究者,政策立案者,活動家がデータ生産者に力を与える機会を概説する。
論文 参考訳(メタデータ) (2023-05-22T17:11:22Z) - Contributing to Accessibility Datasets: Reflections on Sharing Study
Data by Blind People [14.625384963263327]
13人の盲目の被験者がデータ収集活動に従事している2つの研究結果を示す。
リスク・ベネフィットのトレードオフを評価する際に、異なる要因が被験者の学習データ共有意欲にどのような影響を及ぼすかを確認する。
大多数は、技術改善のためにデータの共有をサポートしますが、商用利用、関連するメタデータ、およびデータの影響に関する透明性の欠如に対する懸念を表明しています。
論文 参考訳(メタデータ) (2023-03-09T00:42:18Z) - Data-centric AI: Perspectives and Challenges [51.70828802140165]
データ中心AI(DCAI)は、モデル進歩からデータ品質と信頼性の確保への根本的なシフトを提唱している。
データ開発、推論データ開発、データメンテナンスの3つの一般的なミッションをまとめます。
論文 参考訳(メタデータ) (2023-01-12T05:28:59Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Documenting Data Production Processes: A Participatory Approach for Data
Work [4.811554861191618]
機械学習データの不透明さは 倫理的なデータ処理と 知的なシステムにとって 重大な脅威です
これまでの研究では、データセットを文書化するための標準化されたチェックリストが提案されている。
本稿では,データセットのドキュメンテーションからデータ生成のドキュメンテーションへの視点転換を提案する。
論文 参考訳(メタデータ) (2022-07-11T15:39:02Z) - Understanding Machine Learning Practitioners' Data Documentation
Perceptions, Needs, Challenges, and Desiderata [10.689661834716613]
データは機械学習(ML)モデルの開発と評価の中心である。
責任あるAIの実践を促進するために、研究者と実践者はデータドキュメントの増加を提唱し始めた。
これらのデータドキュメンテーションフレームワークがML実践者のニーズを満たすかどうかについてはほとんど研究されていない。
論文 参考訳(メタデータ) (2022-06-06T21:55:39Z) - Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-03T13:49:36Z) - Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data
Programming [77.38174112525168]
私たちは、WS 学習パイプラインの全体的な生産性を、一般的な WS 監督アプローチと比較して平均20%(最大 47% のタスク)改善する、エンドツーエンドのインタラクティブなスーパービジョンシステムである Nemo を紹介します。
論文 参考訳(メタデータ) (2022-03-02T19:57:32Z) - Empowering Local Communities Using Artificial Intelligence [70.17085406202368]
人中心の観点から、AIが社会に与える影響を探求する上で重要なトピックとなっている。
市民科学におけるこれまでの研究は、AIを使って研究に大衆を巻き込む方法を特定してきた。
本稿では,コミュニティ市民科学にAIを適用する上での課題について論じる。
論文 参考訳(メタデータ) (2021-10-05T12:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。