Fugu-MT 論文翻訳(概要): Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks

論文の概要: Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks

arxiv url: http://arxiv.org/abs/2311.09743v1
Date: Thu, 16 Nov 2023 10:18:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 15:09:09.097231
Title: Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks
Title（参考訳）: 主観的学習課題におけるクラウドソーシングアノテータの視点の把握
Authors: Negar Mokhberian, Myrl G. Marmarelis, Frederic R. Hopp, Valerio Basile, Fred Morstatter, Kristina Lerman
Abstract要約: ほとんどの分類モデルでは、各データポイントに対して単一の真実ラベルを持つと仮定されている。毒性の分類のような主観的なタスクはアナテーターの間で真の不一致につながる主観的分類タスクのためのテキスト用アノテーション認識表現(AART)を提案する。
参考スコア（独自算出の注目度）: 9.654024757018984
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In most classification models, it has been assumed to have a single ground truth label for each data point. However, subjective tasks like toxicity classification can lead to genuine disagreement among annotators. In these cases aggregating labels will result in biased labeling and, consequently, biased models that can overlook minority opinions. Previous studies have shed light on the pitfalls of label aggregation and have introduced a handful of practical approaches to tackle this issue. Recently proposed multi-annotator models, which predict labels individually per annotator, are vulnerable to under-determination for annotators with small samples. This problem is especially the case in crowd-sourced datasets. In this work, we propose Annotator Aware Representations for Texts (AART) for subjective classification tasks. We will show the improvement of our method on metrics that assess the performance on capturing annotators' perspectives. Additionally, our approach involves learning representations for annotators, allowing for an exploration of the captured annotation behaviors.
Abstract（参考訳）: ほとんどの分類モデルでは、各データポイントに対して単一の真実ラベルを持つと仮定されている。しかし、毒性分類のような主観的なタスクは、アノテーターの間で真の不一致を引き起こす可能性がある。このような場合、ラベルを集約するとバイアス付きラベルが生まれ、その結果、少数派の意見を見渡すことができるバイアス付きモデルが生まれる。これまでの研究はラベルアグリゲーションの落とし穴に光を当て、この問題に取り組むための実践的なアプローチをいくつか導入してきた。近年,アノテータ毎にラベルを個別に予測するマルチアノテータモデルが,小さなサンプルを持つアノテータのアンダー決定に脆弱である。この問題は特にクラウドソースのデータセットで問題となる。本研究では、主観的分類タスクのためのテキスト用アノテーション認識表現(AART)を提案する。注記者の視点を捉えた上での性能を評価する指標について,提案手法の改善を示す。さらに、アノテーションの表現を学習し、キャプチャしたアノテーションの振る舞いを探索する手法である。

関連論文リスト

Exploring the Influence of Label Aggregation on Minority Voices: Implications for Dataset Bias and Model Training [10.00533358414859]
性差別検出における標準ラベル集約戦略が少数意見表現に与える影響について検討した。マイノリティアノテーションの品質と価値を調べた上で,ゴールドラベルのクラス分布に与える影響について検討した。本稿では,各手法が導入する潜在的なバイアスとそのモデルによる増幅方法について論じる。
論文参考訳（メタデータ） (2024-12-05T10:00:49Z)
Leveraging Annotator Disagreement for Text Classification [3.6625157427847963]
テキスト分類では、データセットが複数のアノテータによってアノテートされた場合でも、モデルトレーニングに1つのマジョリティラベルのみを使用するのが一般的である。本稿では,アノテータの不一致を利用してテキスト分類を行う3つの手法を提案する。
論文参考訳（メタデータ） (2024-09-26T06:46:53Z)
ACTOR: Active Learning with Annotator-specific Classification Heads to Embrace Human Label Variation [35.10805667891489]
積極的学習は、アノテーションのコスト削減戦略として、不一致から学ぶという文脈で完全には研究されていない。アクティブな学習環境では、不確実性推定の観点から、マルチヘッドモデルの方がシングルヘッドモデルよりもはるかに優れていることを示す。
論文参考訳（メタデータ） (2023-10-23T14:26:43Z)
IDEAL: Influence-Driven Selective Annotations Empower In-Context Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文参考訳（メタデータ） (2023-10-16T22:53:54Z)
Subjective Crowd Disagreements for Subjective Data: Uncovering Meaningful CrowdOpinion with Population-level Learning [8.530934084017966]
emphCrowdOpinionは、言語特徴とラベル分布を用いて、類似した項目をラベル分布のより大きなサンプルにまとめる教師なし学習手法である。ソーシャルメディアから利用可能な5つのベンチマークデータセット(アノテータの不一致のレベルが異なる)を使用します。また、Facebookのデータセットを使って、投稿に反応するユーザーによって、プラットフォーム自体からアノテーションが送られてくるような実験も行っています。
論文参考訳（メタデータ） (2023-07-07T22:09:46Z)
Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文参考訳（メタデータ） (2023-05-24T06:19:14Z)
SeedBERT: Recovering Annotator Rating Distributions from an Aggregated Label [43.23903984174963]
単一ラベルからアノテータ評価分布を復元するSeedBERTを提案する。人間の評価は,SeedBERTの注意機構がアノテータの不一致の原因と一致していることを示している。
論文参考訳（メタデータ） (2022-11-23T18:35:15Z)
Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文参考訳（メタデータ） (2022-06-05T22:31:45Z)
Disjoint Contrastive Regression Learning for Multi-Sourced Annotations [10.159313152511919]
大規模データセットはディープラーニングモデルの開発に重要である。複数のアノテータを使用して、データの異なるサブセットをラベル付けすることができる。異なるアノテータ間の矛盾とバイアスはモデルトレーニングに有害である。
論文参考訳（メタデータ） (2021-12-31T12:39:04Z)
Disentangling Sampling and Labeling Bias for Learning in Large-Output Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文参考訳（メタデータ） (2021-05-12T15:40:13Z)
Dynamic Semantic Matching and Aggregation Network for Few-shot Intent Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文参考訳（メタデータ） (2020-10-06T05:16:38Z)
Debiased Contrastive Learning [64.98602526764599]
我々は,同ラベルデータポイントのサンプリングを補正する,偏りのあるコントラスト目的の開発を行う。実証的に、提案する目的は、視覚、言語、強化学習ベンチマークにおける表現学習の最先端を一貫して上回る。
論文参考訳（メタデータ） (2020-07-01T04:25:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。