論文の概要: Two Contrasting Data Annotation Paradigms for Subjective NLP Tasks
- arxiv url: http://arxiv.org/abs/2112.07475v1
- Date: Tue, 14 Dec 2021 15:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 20:27:36.292360
- Title: Two Contrasting Data Annotation Paradigms for Subjective NLP Tasks
- Title(参考訳): 主観的NLP課題に対する2つの対比データアノテーションパラダイム
- Authors: Paul R\"ottger, Bertie Vidgen, Dirk Hovy, Janet B. Pierrehumbert
- Abstract要約: データアノテーションのためのコントラストパラダイムを2つ提案する。
記述的パラダイムはアノテータの主観性を促進するが、規範的パラダイムはそれを妨げている。
データセット作成者は、データセットの意図した使用を促進するために、どちらか一方を明示的に目標にすべきである、と私たちは主張する。
- 参考スコア(独自算出の注目度): 17.033055327465238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Labelled data is the foundation of most natural language processing tasks.
However, labelling data is difficult and there often are diverse valid beliefs
about what the correct data labels should be. So far, dataset creators have
acknowledged annotator subjectivity, but not actively managed it in the
annotation process. This has led to partly-subjective datasets that fail to
serve a clear downstream use. To address this issue, we propose two contrasting
paradigms for data annotation. The descriptive paradigm encourages annotator
subjectivity, whereas the prescriptive paradigm discourages it. Descriptive
annotation allows for the surveying and modelling of different beliefs, whereas
prescriptive annotation enables the training of models that consistently apply
one belief. We discuss benefits and challenges in implementing both paradigms,
and argue that dataset creators should explicitly aim for one or the other to
facilitate the intended use of their dataset. Lastly, we design an annotation
experiment to illustrate the contrast between the two paradigms.
- Abstract(参考訳): Labelled Dataは、ほとんどの自然言語処理タスクの基盤である。
しかし、データのラベル付けは困難であり、正しいデータラベルがどうあるべきかについての様々な有効な信念が存在することが多い。
今のところ、データセットの作成者はアノテーションの主観性を認めているが、アノテーションのプロセスではアクティブに管理していない。
これにより、ダウンストリームの明確な使用に失敗する部分オブジェクトデータセットが実現した。
この問題に対処するため、データアノテーションのコントラストパラダイムを2つ提案する。
記述的パラダイムはアノテータの主観性を促進するが、規範的パラダイムはそれを妨げる。
記述的アノテーションは異なる信念の調査とモデリングを可能にし、規範的アノテーションは1つの信念を一貫して適用するモデルのトレーニングを可能にする。
我々は、両方のパラダイムを実装する際のメリットと課題について議論し、データセット作成者は、データセットの意図した使用を促進するために、互いに明示的に目的を定めるべきである、と論じる。
最後に,2つのパラダイム間のコントラストを示すアノテーション実験を設計する。
関連論文リスト
- Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。
毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。
本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - CrowdWorkSheets: Accounting for Individual and Collective Identities
Underlying Crowdsourced Dataset Annotation [8.447159556925182]
クラウドソーシングされたデータセットアノテーションに関する倫理的考察の洞察を提供する文献を調査する。
1)アノテータが誰であるか、そして、アノテータの生きた経験がアノテーションにどのように影響するかである。
我々は、データセット開発者のための新しいフレームワークCrowdWorkSheetsを導入し、データアノテーションパイプラインのさまざまな段階における重要な決定ポイントの透過的なドキュメント化を容易にする。
論文 参考訳(メタデータ) (2022-06-09T23:31:17Z) - Disjoint Contrastive Regression Learning for Multi-Sourced Annotations [10.159313152511919]
大規模データセットはディープラーニングモデルの開発に重要である。
複数のアノテータを使用して、データの異なるサブセットをラベル付けすることができる。
異なるアノテータ間の矛盾とバイアスはモデルトレーニングに有害である。
論文 参考訳(メタデータ) (2021-12-31T12:39:04Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - Object Detection with a Unified Label Space from Multiple Datasets [94.33205773893151]
異なるラベル空間を持つ複数のデータセットが与えられた場合、この研究の目標は、すべてのラベル空間の結合について予測する単一のオブジェクト検出器をトレーニングすることである。
あるデータセットにアノテートされているが、別のデータセットにアノテートされていない顔のようなオブジェクトカテゴリを考えてみましょう。
顔のようないくつかのカテゴリは、あるデータセットでは前景と見なされるが、別のデータセットでは背景と見なされる。
本稿では,部分的だが正しいアノテーションを補完的だがノイズの多い擬似ラベルと注意深く統合する損失関数を提案する。
論文 参考訳(メタデータ) (2020-08-15T00:51:27Z) - Null-sampling for Interpretable and Fair Representations [8.654168514863649]
データ領域における不変表現を学習し、アルゴリズム的公正性における解釈可能性を実現する。
データドメインに表現を配置することで、モデルによってなされた変更は、人間の監査官によって容易に検査可能である。
論文 参考訳(メタデータ) (2020-08-12T11:49:01Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。