論文の概要: When the Majority is Wrong: Modeling Annotator Disagreement for Subjective Tasks
- arxiv url: http://arxiv.org/abs/2305.06626v5
- Date: Sun, 17 Mar 2024 23:39:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 06:28:31.106898
- Title: When the Majority is Wrong: Modeling Annotator Disagreement for Subjective Tasks
- Title(参考訳): 主観的タスクに対するアノテーションの分解のモデル化
- Authors: Eve Fleisig, Rediet Abebe, Dan Klein,
- Abstract要約: ヘイトスピーチの検出における重要な問題は、ある声明が人口集団に対して攻撃的であるかどうかを決定することである。
我々は、潜在的に攻撃的なテキストに基づいて、個々のアノテータ評価を予測するモデルを構築した。
その結果、アノテータの評価は、その人口統計情報とオンラインコンテンツに関する意見を用いて予測できることがわかった。
- 参考スコア(独自算出の注目度): 45.14664901245331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though majority vote among annotators is typically used for ground truth labels in natural language processing, annotator disagreement in tasks such as hate speech detection may reflect differences in opinion across groups, not noise. Thus, a crucial problem in hate speech detection is determining whether a statement is offensive to the demographic group that it targets, when that group may constitute a small fraction of the annotator pool. We construct a model that predicts individual annotator ratings on potentially offensive text and combines this information with the predicted target group of the text to model the opinions of target group members. We show gains across a range of metrics, including raising performance over the baseline by 22% at predicting individual annotators' ratings and by 33% at predicting variance among annotators, which provides a metric for model uncertainty downstream. We find that annotator ratings can be predicted using their demographic information and opinions on online content, without the need to track identifying annotator IDs that link each annotator to their ratings. We also find that use of non-invasive survey questions on annotators' online experiences helps to maximize privacy and minimize unnecessary collection of demographic information when predicting annotators' opinions.
- Abstract(参考訳): アノテーターの過半数の投票は、自然言語処理における基礎的な真理ラベルに使われるのが一般的であるが、ヘイトスピーチ検出のようなタスクにおけるアノテーターの不一致は、グループ間での意見の相違を反映し、ノイズではない。
したがって、ヘイトスピーチ検出における重要な問題は、そのグループがアノテータプールのごく一部を構成する場合、対象とする人口集団に対して、声明が攻撃的であるかどうかを決定することである。
本研究では,攻撃的可能性のあるテキストに基づいて個々のアノテータ評価を予測し,この情報をテキストの予測対象グループと組み合わせて,対象メンバーの意見をモデル化するモデルを構築した。
例えば,個々のアノテータのレーティングの予測では22%,アノテータ間のばらつきの予測では33%,ダウンストリームのモデル不確実性の指標を提供する。
その結果、アノテータの評価は、アノテータと評価をリンクするアノテータIDを追跡せずに、彼らの人口統計情報とオンラインコンテンツに関する意見を用いて予測できることがわかった。
また、アノテータのオンライン体験における非侵襲的な調査質問の使用は、アノテータの意見を予測する際に、プライバシーを最大化し、不要な人口統計情報の収集を最小化するのに役立ちます。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Voices in a Crowd: Searching for Clusters of Unique Perspectives [8.516397617576978]
提案されたソリューションは、アノテータの不一致をモデル化するか、あるいは共有メタデータに基づいてアノテータをグループ化することによって、少数派の視点を捉えることを目的としている。
本稿では,アノテータのメタデータを符号化せずにモデルを訓練し,アノテータの振る舞いによって通知される潜伏埋め込みを抽出し,類似した意見の集合を生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-19T12:37:15Z) - Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。
毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。
本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - Subjective Crowd Disagreements for Subjective Data: Uncovering
Meaningful CrowdOpinion with Population-level Learning [8.530934084017966]
emphCrowdOpinionは、言語特徴とラベル分布を用いて、類似した項目をラベル分布のより大きなサンプルにまとめる教師なし学習手法である。
ソーシャルメディアから利用可能な5つのベンチマークデータセット(アノテータの不一致のレベルが異なる)を使用します。
また、Facebookのデータセットを使って、投稿に反応するユーザーによって、プラットフォーム自体からアノテーションが送られてくるような実験も行っています。
論文 参考訳(メタデータ) (2023-07-07T22:09:46Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Measuring the Effect of Influential Messages on Varying Personas [67.1149173905004]
我々は、ニュースメッセージを見る際にペルソナが持つ可能性のある応答を推定するために、ニュースメディア向けのペルソナに対するレスポンス予測という新しいタスクを提示する。
提案課題は,モデルにパーソナライズを導入するだけでなく,各応答の感情極性と強度も予測する。
これにより、ペルソナの精神状態に関するより正確で包括的な推測が可能になる。
論文 参考訳(メタデータ) (2023-05-25T21:01:00Z) - Everyone's Voice Matters: Quantifying Annotation Disagreement Using
Demographic Information [11.227630261409706]
本研究では,タスクのテキストとアノテータの階層的背景情報を用いて,アノテータ間の不一致の程度を推定できるかどうかを検討する。
その結果, 性別, 民族, 教育水準などのアノテータの人口統計情報を知ることは, 意見の不一致の予測に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-01-12T14:04:53Z) - Reducing Target Group Bias in Hate Speech Detectors [56.94616390740415]
大規模な公開データセットでトレーニングされたテキスト分類モデルは、いくつかの保護されたグループで大幅に性能が低下する可能性がある。
本稿では,トークンレベルのヘイトセンスの曖昧さを実現し,トークンのヘイトセンスの表現を検知に利用することを提案する。
論文 参考訳(メタデータ) (2021-12-07T17:49:34Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。