論文の概要: You Are What You Annotate: Towards Better Models through Annotator
Representations
- arxiv url: http://arxiv.org/abs/2305.14663v2
- Date: Sun, 22 Oct 2023 17:10:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 11:45:39.013431
- Title: You Are What You Annotate: Towards Better Models through Annotator
Representations
- Title(参考訳): You Are What Annotate: Annotator Representationを通じてより良いモデルを目指す
- Authors: Naihao Deng, Xinliang Frederick Zhang, Siyang Liu, Winston Wu, Lu
Wang, Rada Mihalcea
- Abstract要約: 我々はアノテータの様々な視点を直接モデル化しようと試みる。
埋め込みによって個々のアノテータの独特な傾向と主観性を捉えることで、私たちの表現は素AIモデルを多様な視点を包含するようにしている。
- 参考スコア(独自算出の注目度): 30.61784526307009
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Annotator disagreement is ubiquitous in natural language processing (NLP)
tasks. There are multiple reasons for such disagreements, including the
subjectivity of the task, difficult cases, unclear guidelines, and so on.
Rather than simply aggregating labels to obtain data annotations, we instead
try to directly model the diverse perspectives of the annotators, and
explicitly account for annotators' idiosyncrasies in the modeling process by
creating representations for each annotator (annotator embeddings) and also
their annotations (annotation embeddings). In addition, we propose TID-8, The
Inherent Disagreement - 8 dataset, a benchmark that consists of eight existing
language understanding datasets that have inherent annotator disagreement. We
test our approach on TID-8 and show that our approach helps models learn
significantly better from disagreements on six different datasets in TID-8
while increasing model size by fewer than 1% parameters. By capturing the
unique tendencies and subjectivity of individual annotators through embeddings,
our representations prime AI models to be inclusive of diverse viewpoints.
- Abstract(参考訳): アノテーションの不一致は自然言語処理(NLP)タスクにおいてユビキタスである。
このような意見の相違には、課題の主観性、難しい事例、不明瞭なガイドラインなど、さまざまな理由がある。
データアノテーションを取得するためにラベルを集約する代わりに、アノテーションのさまざまな観点を直接モデル化し、アノテーション(アノテーションの埋め込み)とアノテーション(アノテーションの埋め込み)の表現を作成することによって、モデリングプロセスにおけるアノテーションの慣用性を明確に説明しようとします。
さらに,既存の8つの言語理解データセットで構成されるベンチマークであるTID-8,The Inherent Disagreement - 8を提案する。
提案手法は, モデルサイズを1%未満に向上させながら, TID-8における6つのデータセットの相違から, モデルをよりよく学習する上で有効であることを示す。
埋め込みによって個々のアノテータのユニークな傾向と主観性を捉えることで、私たちの表現は素AIモデルを多様な視点を包含するようにします。
関連論文リスト
- Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。
毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。
本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - Everyone's Voice Matters: Quantifying Annotation Disagreement Using
Demographic Information [11.227630261409706]
本研究では,タスクのテキストとアノテータの階層的背景情報を用いて,アノテータ間の不一致の程度を推定できるかどうかを検討する。
その結果, 性別, 民族, 教育水準などのアノテータの人口統計情報を知ることは, 意見の不一致の予測に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-01-12T14:04:53Z) - SeedBERT: Recovering Annotator Rating Distributions from an Aggregated
Label [43.23903984174963]
単一ラベルからアノテータ評価分布を復元するSeedBERTを提案する。
人間の評価は,SeedBERTの注意機構がアノテータの不一致の原因と一致していることを示している。
論文 参考訳(メタデータ) (2022-11-23T18:35:15Z) - Selective Annotation Makes Language Models Better Few-Shot Learners [97.07544941620367]
大規模な言語モデルはコンテキスト内学習を実行でき、いくつかのタスクデモから新しいタスクを学ぶことができる。
本研究は、新しい自然言語タスクのためのデータセット作成において、文脈内学習がもたらす意味について考察する。
本稿では,無教師付きグラフベースの選択的アノテーションであるvoke-kを提案する。
論文 参考訳(メタデータ) (2022-09-05T14:01:15Z) - Two Contrasting Data Annotation Paradigms for Subjective NLP Tasks [17.033055327465238]
データアノテーションのためのコントラストパラダイムを2つ提案する。
記述的パラダイムはアノテータの主観性を促進するが、規範的パラダイムはそれを妨げている。
データセット作成者は、データセットの意図した使用を促進するために、どちらか一方を明示的に目標にすべきである、と私たちは主張する。
論文 参考訳(メタデータ) (2021-12-14T15:38:22Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - A Simple Language Model for Task-Oriented Dialogue [61.84084939472287]
SimpleTODはタスク指向対話に対する単純なアプローチであり、すべてのサブタスクのリキャストで訓練された単一因果言語モデルを単一シーケンス予測問題として利用する。
これによりSimpleTODは、事前訓練されたオープンドメイン、GPT-2のような因果言語モデルからのトランスファー学習を完全に活用できる。
論文 参考訳(メタデータ) (2020-05-02T11:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。