論文の概要: Everyone's Voice Matters: Quantifying Annotation Disagreement Using
Demographic Information
- arxiv url: http://arxiv.org/abs/2301.05036v1
- Date: Thu, 12 Jan 2023 14:04:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 13:42:45.412461
- Title: Everyone's Voice Matters: Quantifying Annotation Disagreement Using
Demographic Information
- Title(参考訳): 全員の声:デモグラフィック情報を用いたアノテーションの診断の定量化
- Authors: Ruyuan Wan, Jaehyung Kim, Dongyeop Kang
- Abstract要約: 本研究では,タスクのテキストとアノテータの階層的背景情報を用いて,アノテータ間の不一致の程度を推定できるかどうかを検討する。
その結果, 性別, 民族, 教育水準などのアノテータの人口統計情報を知ることは, 意見の不一致の予測に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 11.227630261409706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In NLP annotation, it is common to have multiple annotators label the text
and then obtain the ground truth labels based on the agreement of major
annotators. However, annotators are individuals with different backgrounds, and
minors' opinions should not be simply ignored. As annotation tasks become
subjective and topics are controversial in modern NLP tasks, we need NLP
systems that can represent people's diverse voices on subjective matters and
predict the level of diversity. This paper examines whether the text of the
task and annotators' demographic background information can be used to estimate
the level of disagreement among annotators. Particularly, we extract
disagreement labels from the annotators' voting histories in the five
subjective datasets, and then fine-tune language models to predict annotators'
disagreement. Our results show that knowing annotators' demographic
information, like gender, ethnicity, and education level, helps predict
disagreements. In order to distinguish the disagreement from the inherent
controversy from text content and the disagreement in the annotators' different
perspectives, we simulate everyone's voices with different combinations of
annotators' artificial demographics and examine its variance of the finetuned
disagreement predictor. Our paper aims to improve the annotation process for
more efficient and inclusive NLP systems through a novel disagreement
prediction mechanism. Our code and dataset are publicly available.
- Abstract(参考訳): NLPアノテーションでは、複数のアノテータにテキストをラベル付けし、主要なアノテータの合意に基づいて基底となる真理ラベルを取得することが一般的である。
しかし、注釈者は異なる背景を持つ個人であり、未成年者の意見は単に無視されるべきではない。
アノテーションタスクが主観的になり、トピックが議論の的になるにつれて、主観的事項に関する人々の多様な声を表現し、多様性のレベルを予測することができるNLPシステムが必要である。
本稿では,課題のテキストと注釈者の背景情報を用いて,注釈者間の不一致の程度を推定できるかどうかについて検討する。
特に,5つの主観的データセットにおける注釈者の投票履歴から不一致ラベルを抽出し,その不一致を予測するための微調整言語モデルを提案する。
その結果, 性別, 民族, 教育レベルなど, 注釈者の人口統計情報を知ることは, 意見の不一致を予測するのに役立つことがわかった。
本研究は,テキストコンテンツと固有の議論と,注釈者の異なる視点における不一致とを区別するために,注釈者の人為的人口動態の異なる組み合わせで全員の声をシミュレートし,その微調整された不一致予測因子のばらつきを検証した。
本稿では,新たな不一致予測機構により,より効率的かつ包括的なNLPシステムのアノテーション処理を改善することを目的とする。
コードとデータセットは公開されています。
関連論文リスト
- Reducing annotator bias by belief elicitation [3.0040661953201475]
アノテーションやインスタンスの数を必要とせずに、アノテーションのバイアスを処理するための簡単な方法を提案する。
我々は、アノテータが他のアノテータのインスタンスに対する判断に対する信念について、これらの信念が判断よりもより代表的なラベルを提供するかもしれないという仮説の下で尋ねる。
その結果、アノテータの2つのグループ間の体系的な差異として定義されるバイアスは、判断の代わりに信念を求める際に一貫して減少することが示された。
論文 参考訳(メタデータ) (2024-10-21T07:44:01Z) - A Taxonomy of Ambiguity Types for NLP [53.10379645698917]
NLP分析を容易にするために,英語で見られるあいまいさの分類法を提案する。
私たちの分類学は、言語あいまいさデータにおいて意味のある分割を実現するのに役立ち、データセットとモデルパフォーマンスのよりきめ細かい評価を可能にします。
論文 参考訳(メタデータ) (2024-03-21T01:47:22Z) - Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。
毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。
本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - Subjective Crowd Disagreements for Subjective Data: Uncovering
Meaningful CrowdOpinion with Population-level Learning [8.530934084017966]
emphCrowdOpinionは、言語特徴とラベル分布を用いて、類似した項目をラベル分布のより大きなサンプルにまとめる教師なし学習手法である。
ソーシャルメディアから利用可能な5つのベンチマークデータセット(アノテータの不一致のレベルが異なる)を使用します。
また、Facebookのデータセットを使って、投稿に反応するユーザーによって、プラットフォーム自体からアノテーションが送られてくるような実験も行っています。
論文 参考訳(メタデータ) (2023-07-07T22:09:46Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - When the Majority is Wrong: Modeling Annotator Disagreement for Subjective Tasks [45.14664901245331]
ヘイトスピーチの検出における重要な問題は、ある声明が人口集団に対して攻撃的であるかどうかを決定することである。
我々は、潜在的に攻撃的なテキストに基づいて、個々のアノテータ評価を予測するモデルを構築した。
その結果、アノテータの評価は、その人口統計情報とオンラインコンテンツに関する意見を用いて予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-11T07:55:20Z) - AnnoBERT: Effectively Representing Multiple Annotators' Label Choices to
Improve Hate Speech Detection [18.823219608659986]
AnnoBERTは、アノテータの特徴とラベルテキストを統合してヘイトスピーチを検出する最初のアーキテクチャである。
トレーニング中、モデルはアノテータとラベルの選択をテキストの一部に関連付ける。
評価中、ラベル情報が得られない場合、モデルは、参加アノテータによって与えられる集約されたラベルを予測する。
論文 参考訳(メタデータ) (2022-12-20T16:30:11Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。