論文の概要: Whose AI Dream? In search of the aspiration in data annotation
- arxiv url: http://arxiv.org/abs/2203.10748v1
- Date: Mon, 21 Mar 2022 06:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 15:45:36.305810
- Title: Whose AI Dream? In search of the aspiration in data annotation
- Title(参考訳): 誰のAIドリーム?
データアノテーションにおける願望を求めて
- Authors: Ding Wang, Shantanu Prabhat, Nithya Sambasivan
- Abstract要約: 本稿では,インドにおける産業におけるデータアノテーションに関する業務実践について検討する。
以前の調査では、アノテータの主観性、偏見、効率性に主に焦点が当てられていた。
その結果,アノテータの作業は,ステーション上の他者の関心や優先順位,価値観によって決定されることがわかった。
- 参考スコア(独自算出の注目度): 12.454034525520497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper present the practice of data annotation from the perspective of
the annotators. Data is fundamental to ML models. This paper investigates the
work practices concerning data annotation as performed in the industry, in
India. Previous investigations have largely focused on annotator subjectivity,
bias and efficiency. We present a wider perspective of the data annotation,
following a grounded approach, we conducted three sets of interviews with 25
annotators, 10 industry experts and 12 ML practitioners. Our results show that
the work of annotators is dictated by the interests, priorities and values of
others above their station. More than technical, we contend that data
annotation is a systematic exercise of power through organizational structure
and practice. We propose a set of implications for how we can cultivate and
encourage better practice to balance the tension between the need for high
quality data at low cost and the annotator aspiration for well being, career
perspective, and active participation in building the AI dream.
- Abstract(参考訳): 本稿では,アノテータの観点からデータアノテーションの実践について述べる。
データはMLモデルの基本です。
本稿では,インドにおける産業におけるデータアノテーションに関する業務実践について検討する。
以前の調査では、アノテータの主観性、バイアス、効率性に主に焦点が当てられていた。
データアノテーションのより広い視点について述べるとともに,25人の注釈家,10人の業界専門家,12人のml実践者との3セットのインタビューを行った。
その結果,アノテータの作業は,ステーション上の他者の関心や優先順位,価値観によって決定されることがわかった。
技術的なことよりも、データアノテーションは組織構造と実践を通じて権力を体系的に行使するものだと主張する。
我々は、高品質なデータの必要性と、健全な存在に対する注釈的願望、キャリアの視点、aiドリームの構築への積極的な参加との緊張をバランスさせるために、よりよいプラクティスを育成し、促進するための、一連の意味合いを提案します。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - A Dataset for the Validation of Truth Inference Algorithms Suitable for Online Deployment [76.04306818209753]
実世界のクラウドソーシングプラットフォームから収集した,実質的なクラウドソーシングアノテーションデータセットを紹介する。
このデータセットは、約2万のワーカー、100万のタスク、600万のアノテーションで構成されている。
本データセットにおけるいくつかの代表的真理推論アルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-10T16:00:41Z) - ActiveAD: Planning-Oriented Active Learning for End-to-End Autonomous
Driving [96.92499034935466]
自動運転のためのエンドツーエンドの差別化学習は、最近顕著なパラダイムになっている。
第一のボトルネックは、高品質なラベル付きデータに対する大胆な欲求にある。
収集した生データの一部を段階的に注釈付けする計画指向のアクティブラーニング手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T11:39:07Z) - Understanding the Dataset Practitioners Behind Large Language Model Development [5.48392160519422]
私たちは、Googleというテクノロジー企業における“データセットの実践者”の役割を定義します。
我々は,これらの実践者の横断的なインタビューを行う。
データ品質が最優先事項であるにも関わらず、データ品質とそれを評価する方法に関するコンセンサスはほとんどありません。
論文 参考訳(メタデータ) (2024-02-21T23:50:37Z) - Exploring Practitioner Perspectives On Training Data Attribution
Explanations [20.45528493625083]
実践者10名を対象に,データ属性説明の活用可能性について検討した。
データ品質のトレーニングが,実際に高いモデルパフォーマンスを実現する上で,最も重要な要素であることに気付きました。
我々は,人間と機械のコラボレーションの観点から,TDA技術の有用性に着目するようコミュニティに促す。
論文 参考訳(メタデータ) (2023-10-31T14:10:30Z) - Data-centric Artificial Intelligence: A Survey [47.24049907785989]
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。
本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。
これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
論文 参考訳(メタデータ) (2023-03-17T17:44:56Z) - Whose Ground Truth? Accounting for Individual and Collective Identities
Underlying Dataset Annotation [7.480972965984986]
クラウドソーシングされたデータセットアノテーションに関する倫理的考察の洞察を提供する文献を調査する。
私たちは、アノテーションが誰であるか、そしてアノテーションの生きた経験がアノテーションにどのように影響するかという2つのレイヤに沿って、この分野の課題をレイアウトしました。
MLデータパイプラインのさまざまな段階において、データセット開発者に対して、具体的なレコメンデーションと考慮事項を提示した。
論文 参考訳(メタデータ) (2021-12-08T19:56:56Z) - Interpreting Deep Knowledge Tracing Model on EdNet Dataset [67.81797777936868]
この作業では、EdNetと呼ばれる大規模で新しく利用可能なデータセット上で、同様のタスクを実行します。
予備実験の結果,解釈手法の有効性が示された。
論文 参考訳(メタデータ) (2021-10-31T07:18:59Z) - Between Subjectivity and Imposition: Power Dynamics in Data Annotation
for Computer Vision [1.933681537640272]
本稿では,産業的文脈における画像データアノテーションの実践について検討する。
我々は、アノテータがラベルを使ってデータに意味を割り当てる、センスメイキングの実践としてデータアノテーションを定義します。
論文 参考訳(メタデータ) (2020-07-29T15:02:56Z) - How Useful is Self-Supervised Pretraining for Visual Tasks? [133.1984299177874]
我々は、総合的な合成データセットと下流タスクにまたがる様々な自己教師付きアルゴリズムを評価する。
我々の実験は、利用可能なラベルの数が増えるにつれて、セルフスーパービジョンの有用性がどう変化するかについての洞察を提供する。
論文 参考訳(メタデータ) (2020-03-31T16:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。