論文の概要: When Do Annotator Demographics Matter? Measuring the Influence of
Annotator Demographics with the POPQUORN Dataset
- arxiv url: http://arxiv.org/abs/2306.06826v2
- Date: Mon, 28 Aug 2023 21:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 17:57:20.606578
- Title: When Do Annotator Demographics Matter? Measuring the Influence of
Annotator Demographics with the POPQUORN Dataset
- Title(参考訳): アノテーションはいつ重要なのか?
popquornデータセットを用いたアノテータ集団の影響測定
- Authors: Jiaxin Pei and David Jurgens
- Abstract要約: その結果,アノテータの背景は判断に重要な役割を担っていることが明らかとなった。
NLP(例えば、教育)ではこれまで考慮されていなかった背景は意味があり、考慮すべきである。
本研究は,アノテータの背景を把握し,人口統計学的にバランスのとれた群集労働者のプールからラベルを収集することが,データセットのバイアスを軽減する上で重要であることを示唆している。
- 参考スコア(独自算出の注目度): 19.591722115337564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Annotators are not fungible. Their demographics, life experiences, and
backgrounds all contribute to how they label data. However, NLP has only
recently considered how annotator identity might influence their decisions.
Here, we present POPQUORN (the POtato-Prolific dataset for QUestion-Answering,
Offensiveness, text Rewriting, and politeness rating with demographic Nuance).
POPQUORN contains 45,000 annotations from 1,484 annotators, drawn from a
representative sample regarding sex, age, and race as the US population.
Through a series of analyses, we show that annotators' background plays a
significant role in their judgments. Further, our work shows that backgrounds
not previously considered in NLP (e.g., education), are meaningful and should
be considered. Our study suggests that understanding the background of
annotators and collecting labels from a demographically balanced pool of crowd
workers is important to reduce the bias of datasets. The dataset, annotator
background, and annotation interface are available at
https://github.com/Jiaxin-Pei/potato-prolific-dataset .
- Abstract(参考訳): 注釈は役に立たない。
彼らの人口統計、生活経験、背景はすべて、データのラベル付けに寄与している。
しかしながら、NLPは、アノテーションのアイデンティティが彼らの決定にどのように影響するかを最近だけ検討している。
本稿では, POPQUORN(QUestion-Answering, Offensiveness, text Rewriting, politeness rating with demographic Nuance)を提案する。
POPQUORNには1,484人のアノテーションからの45,000のアノテーションが含まれている。
一連の分析を通じて,注釈者の背景が判断において重要な役割を担っていることを示す。
さらに、NLP(例えば、教育)ではこれまで考慮されていなかった背景が有意義であり、考慮すべきであることを示す。
本研究では,アノテータの背景を理解し,集団的バランスのとれた集団労働者のプールからラベルを収集することが,データセットのバイアスを軽減する上で重要であることを示唆する。
データセット、アノテーションの背景、アノテーションのインターフェースはhttps://github.com/Jiaxin-Pei/potato-prolific-dataset で利用可能だ。
関連論文リスト
- Which Demographics do LLMs Default to During Annotation? [9.190535758368567]
データアノテーションに大規模言語モデル(LLM)を用いることで、2つの研究方向が開発された。
我々は,ヒトアノテータLLMのどの属性が本質的に模倣されているかを評価する。
性別、人種、年齢に関連する顕著な影響を、人口動態の促進において観察する。
論文 参考訳(メタデータ) (2024-10-11T14:02:42Z) - Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。
毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。
本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - Aligning with Whom? Large Language Models Have Gender and Racial Biases
in Subjective NLP Tasks [15.015148115215315]
我々は4つのポピュラーな大言語モデル(LLM)の実験を行い、集団差と潜在的なバイアスを理解する能力について、丁寧さと不快さの予測について検討する。
どちらのタスクでも、モデル予測は白人と女性の参加者のラベルに近いことが分かりました。
より具体的には、"ブラック"と"アジア"個人の観点から反応するよう促された場合、モデルは、対応するグループからのスコアだけでなく、全体的なスコアを予測する際のパフォーマンスを低下させる。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Subjective Crowd Disagreements for Subjective Data: Uncovering
Meaningful CrowdOpinion with Population-level Learning [8.530934084017966]
emphCrowdOpinionは、言語特徴とラベル分布を用いて、類似した項目をラベル分布のより大きなサンプルにまとめる教師なし学習手法である。
ソーシャルメディアから利用可能な5つのベンチマークデータセット(アノテータの不一致のレベルが異なる)を使用します。
また、Facebookのデータセットを使って、投稿に反応するユーザーによって、プラットフォーム自体からアノテーションが送られてくるような実験も行っています。
論文 参考訳(メタデータ) (2023-07-07T22:09:46Z) - When the Majority is Wrong: Modeling Annotator Disagreement for Subjective Tasks [45.14664901245331]
ヘイトスピーチの検出における重要な問題は、ある声明が人口集団に対して攻撃的であるかどうかを決定することである。
我々は、潜在的に攻撃的なテキストに基づいて、個々のアノテータ評価を予測するモデルを構築した。
その結果、アノテータの評価は、その人口統計情報とオンラインコンテンツに関する意見を用いて予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-11T07:55:20Z) - Everyone's Voice Matters: Quantifying Annotation Disagreement Using
Demographic Information [11.227630261409706]
本研究では,タスクのテキストとアノテータの階層的背景情報を用いて,アノテータ間の不一致の程度を推定できるかどうかを検討する。
その結果, 性別, 民族, 教育水準などのアノテータの人口統計情報を知ることは, 意見の不一致の予測に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-01-12T14:04:53Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Contrastive Examples for Addressing the Tyranny of the Majority [83.93825214500131]
我々は,グループメンバーシップを介在する,オリジナルのデータセットと新たなデータポイントからなるバランスの取れたトレーニングデータセットを作成することを提案する。
コントラッシブ・サンプル(英語版)と呼ばれるこれらのデータポイントを学習するための強力なツールとして、現在の生成的敵ネットワークが重要であることを示す。
論文 参考訳(メタデータ) (2020-04-14T14:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。