論文の概要: Capturing Perspectives of Crowdsourced Annotators in Subjective Learning
Tasks
- arxiv url: http://arxiv.org/abs/2311.09743v1
- Date: Thu, 16 Nov 2023 10:18:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:09:09.097231
- Title: Capturing Perspectives of Crowdsourced Annotators in Subjective Learning
Tasks
- Title(参考訳): 主観的学習課題におけるクラウドソーシングアノテータの視点の把握
- Authors: Negar Mokhberian, Myrl G. Marmarelis, Frederic R. Hopp, Valerio
Basile, Fred Morstatter, Kristina Lerman
- Abstract要約: ほとんどの分類モデルでは、各データポイントに対して単一の真実ラベルを持つと仮定されている。
毒性の分類のような主観的なタスクは アナテーターの間で 真の不一致につながる
主観的分類タスクのためのテキスト用アノテーション認識表現(AART)を提案する。
- 参考スコア(独自算出の注目度): 9.654024757018984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In most classification models, it has been assumed to have a single ground
truth label for each data point. However, subjective tasks like toxicity
classification can lead to genuine disagreement among annotators. In these
cases aggregating labels will result in biased labeling and, consequently,
biased models that can overlook minority opinions. Previous studies have shed
light on the pitfalls of label aggregation and have introduced a handful of
practical approaches to tackle this issue. Recently proposed multi-annotator
models, which predict labels individually per annotator, are vulnerable to
under-determination for annotators with small samples. This problem is
especially the case in crowd-sourced datasets. In this work, we propose
Annotator Aware Representations for Texts (AART) for subjective classification
tasks. We will show the improvement of our method on metrics that assess the
performance on capturing annotators' perspectives. Additionally, our approach
involves learning representations for annotators, allowing for an exploration
of the captured annotation behaviors.
- Abstract(参考訳): ほとんどの分類モデルでは、各データポイントに対して単一の真実ラベルを持つと仮定されている。
しかし、毒性分類のような主観的なタスクは、アノテーターの間で真の不一致を引き起こす可能性がある。
このような場合、ラベルを集約するとバイアス付きラベルが生まれ、その結果、少数派の意見を見渡すことができるバイアス付きモデルが生まれる。
これまでの研究はラベルアグリゲーションの落とし穴に光を当て、この問題に取り組むための実践的なアプローチをいくつか導入してきた。
近年,アノテータ毎にラベルを個別に予測するマルチアノテータモデルが,小さなサンプルを持つアノテータのアンダー決定に脆弱である。
この問題は特にクラウドソースのデータセットで問題となる。
本研究では、主観的分類タスクのためのテキスト用アノテーション認識表現(AART)を提案する。
注記者の視点を捉えた上での性能を評価する指標について,提案手法の改善を示す。
さらに、アノテーションの表現を学習し、キャプチャしたアノテーションの振る舞いを探索する手法である。
関連論文リスト
- Leveraging Annotator Disagreement for Text Classification [3.6625157427847963]
テキスト分類では、データセットが複数のアノテータによってアノテートされた場合でも、モデルトレーニングに1つのマジョリティラベルのみを使用するのが一般的である。
本稿では,アノテータの不一致を利用してテキスト分類を行う3つの手法を提案する。
論文 参考訳(メタデータ) (2024-09-26T06:46:53Z) - ACTOR: Active Learning with Annotator-specific Classification Heads to
Embrace Human Label Variation [35.10805667891489]
積極的学習は、アノテーションのコスト削減戦略として、不一致から学ぶという文脈で完全には研究されていない。
アクティブな学習環境では、不確実性推定の観点から、マルチヘッドモデルの方がシングルヘッドモデルよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-10-23T14:26:43Z) - IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - Subjective Crowd Disagreements for Subjective Data: Uncovering
Meaningful CrowdOpinion with Population-level Learning [8.530934084017966]
emphCrowdOpinionは、言語特徴とラベル分布を用いて、類似した項目をラベル分布のより大きなサンプルにまとめる教師なし学習手法である。
ソーシャルメディアから利用可能な5つのベンチマークデータセット(アノテータの不一致のレベルが異なる)を使用します。
また、Facebookのデータセットを使って、投稿に反応するユーザーによって、プラットフォーム自体からアノテーションが送られてくるような実験も行っています。
論文 参考訳(メタデータ) (2023-07-07T22:09:46Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - SeedBERT: Recovering Annotator Rating Distributions from an Aggregated
Label [43.23903984174963]
単一ラベルからアノテータ評価分布を復元するSeedBERTを提案する。
人間の評価は,SeedBERTの注意機構がアノテータの不一致の原因と一致していることを示している。
論文 参考訳(メタデータ) (2022-11-23T18:35:15Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Disjoint Contrastive Regression Learning for Multi-Sourced Annotations [10.159313152511919]
大規模データセットはディープラーニングモデルの開発に重要である。
複数のアノテータを使用して、データの異なるサブセットをラベル付けすることができる。
異なるアノテータ間の矛盾とバイアスはモデルトレーニングに有害である。
論文 参考訳(メタデータ) (2021-12-31T12:39:04Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Debiased Contrastive Learning [64.98602526764599]
我々は,同ラベルデータポイントのサンプリングを補正する,偏りのあるコントラスト目的の開発を行う。
実証的に、提案する目的は、視覚、言語、強化学習ベンチマークにおける表現学習の最先端を一貫して上回る。
論文 参考訳(メタデータ) (2020-07-01T04:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。