論文の概要: The Data-Production Dispositif
- arxiv url: http://arxiv.org/abs/2205.11963v1
- Date: Tue, 24 May 2022 10:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 01:45:56.138377
- Title: The Data-Production Dispositif
- Title(参考訳): Data-Production Dispositif
- Authors: Milagros Miceli and Julian Posada
- Abstract要約: 本稿では,ベネズエラの3つのプラットフォームとアルゼンチンのBPOを調査し,ラテンアメリカにおける機械学習データワークのアウトソースについて検討する。
我々は、データ生産の処分を、データと労働の力と知識の関係を(再)生み出すために戦略的に配置された言論、行動、対象の集合として定義するために、フーカウルディアンの処分の概念に頼っている。
我々は、疎外化や先制化と戦ってデータ生産不備に対処することの重要性を強調し、データ労働者が高品質なデータを求めて資産になるよう促すことで、結論付ける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) depends on data to train and verify models. Very often,
organizations outsource processes related to data work (i.e., generating and
annotating data and evaluating outputs) through business process outsourcing
(BPO) companies and crowdsourcing platforms. This paper investigates outsourced
ML data work in Latin America by studying three platforms in Venezuela and a
BPO in Argentina. We lean on the Foucauldian notion of dispositif to define the
data-production dispositif as an ensemble of discourses, actions, and objects
strategically disposed to (re)produce power/knowledge relations in data and
labor. Our dispositif analysis comprises the examination of 210 data work
instruction documents, 55 interviews with data workers, managers, and
requesters, and participant observation. Our findings show that discourses
encoded in instructions reproduce and normalize the worldviews of requesters.
Precarious working conditions and economic dependency alienate workers, making
them obedient to instructions. Furthermore, discourses and social contexts
materialize in artifacts, such as interfaces and performance metrics, limiting
workers' agency and normalizing specific ways of interpreting data. We conclude
by stressing the importance of counteracting the data-production dispositif by
fighting alienation and precarization, and empowering data workers to become
assets in the quest for high-quality data.
- Abstract(参考訳): 機械学習(ML)はモデルをトレーニングし検証するためのデータに依存する。
組織はしばしば、ビジネスプロセスアウトソーシング(BPO)企業やクラウドソーシングプラットフォームを通じて、データ作業に関連するプロセス(すなわち、データの生成とアノテート、アウトプットの評価)をアウトソーシングする。
本稿では,ベネズエラの3プラットフォームとアルゼンチンのBPOを用いて,ラテンアメリカにおけるMLデータワークのアウトソースについて検討する。
我々は、データ生産の処分を、データと労働の力と知識の関係を(再)生み出すために戦略的に配置された言論、行動、対象の集合として定義するために、フーカウルディアンの処分の概念に頼っている。
分析は,データワーク指導文書210点,データワーカー,管理者,依頼者との55点の面接,参加者の観察からなる。
その結果,指示書にエンコードされた談話は,依頼者の世界観を再現し,正規化することがわかった。
労働条件や経済的依存は労働者を疎外させ、命令に従順にする。
さらに、会話や社会的文脈は、インターフェースやパフォーマンスメトリクス、労働者の代理店の制限、データ解釈の特定の方法の標準化といったアーティファクトで実現されている。
我々は、疎外化や先制化と戦ってデータ生産不備に対処することの重要性を強調し、データ労働者が高品質なデータを求めて資産になるよう促すことで結論付ける。
関連論文リスト
- Bridging the Data Provenance Gap Across Text, Speech and Video [67.72097952282262]
我々は、人気テキスト、音声、ビデオデータセットのモダリティにまたがって、最大かつ第1級の経時的監査を行う。
私たちの手動分析では、1990年から2024年の間に、608言語、798のソース、659の組織、67の国で4000近い公開データセットをカバーしています。
マルチモーダル機械学習アプリケーションは、トレーニングセットのために、YouTubeのようなWebcrawled、synthetic、ソーシャルメディアプラットフォームに圧倒的に移行した。
論文 参考訳(メタデータ) (2024-12-19T01:30:19Z) - Global Inequalities in the Production of Artificial Intelligence: A Four-Country Study on Data Work [0.0]
労働力は人工知能の発展において大きな役割を担っているが、ほとんど認識されていない。
オンラインプラットフォームと下請け業者のネットワークは、AI生産の影の中でタスクを実行するためにデータワーカーを募集する。
本研究は、ベネズエラ、ブラジル、マダガスカル、フランスの富裕国における労働条件とデータ労働者のプロフィールを比較して、結果として生じる複雑さを明らかにする。
論文 参考訳(メタデータ) (2024-10-18T07:23:17Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Computational Job Market Analysis with Natural Language Processing [5.117211717291377]
本論文は,業務記述から関連情報を抽出する自然言語処理(NLP)技術について考察する。
問題の枠組みを定め,注釈付きデータを取得し,抽出手法を導入する。
私たちのコントリビューションには、ジョブ記述データセット、非識別データセット、効率的なモデルトレーニングのための新しいアクティブラーニングアルゴリズムが含まれています。
論文 参考訳(メタデータ) (2024-04-29T14:52:38Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Wisdom for the Crowd: Discoursive Power in Annotation Instructions for
Computer Vision [0.0]
本稿ではアルゼンチンとベネズエラのデータアノテータの経験に焦点を当てる。
以上の結果から, 注視指示は, 労働者に課された世界観や, 労働力を通じて, データセットに課せられていることが示唆された。
この構成は、社会的不平等を補強しながら、パワー・アシンメトリーを永続させるコモディファイド・ワークの形式を示す。
論文 参考訳(メタデータ) (2021-05-23T18:20:39Z) - DataOps for Societal Intelligence: a Data Pipeline for Labor Market
Skills Extraction and Matching [5.842787579447653]
データOpsモデルを用いて,この問題を定式化し,解決する。
そして、履歴書からスキルを抽出する重要なタスクに焦点を合わせます。
実データに応用機械学習を適用した予備結果を示す。
論文 参考訳(メタデータ) (2021-04-05T15:37:25Z) - Bringing the People Back In: Contesting Benchmark Machine Learning
Datasets [11.00769651520502]
機械学習データの系譜である研究プログラムを概説し、これらのデータセットの作成方法と理由について検討する。
機械学習におけるベンチマークデータセットを基盤として運用する方法を解説し、これらのデータセットについて4つの研究課題を提起する。
論文 参考訳(メタデータ) (2020-07-14T23:22:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。