論文の概要: You Are What You Annotate: Towards Better Models through Annotator
Representations
- arxiv url: http://arxiv.org/abs/2305.14663v1
- Date: Wed, 24 May 2023 03:06:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 20:17:50.361216
- Title: You Are What You Annotate: Towards Better Models through Annotator
Representations
- Title(参考訳): You Are What Annotate: Annotator Representationを通じてより良いモデルを目指す
- Authors: Naihao Deng, Siyang Liu, Xinliang Frederick Zhang, Winston Wu, Lu
Wang, Rada Mihalcea
- Abstract要約: アノテーション(アノテーションの埋め込み)とアノテーション(アノテーションの埋め込み)を、それぞれに関連付けられた学習可能な行列で表現します。
提案手法は,1%未満のモデルパラメータを追加することにより,様々なNLPベンチマークにおけるモデル性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 28.671752239516145
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Annotator disagreement is ubiquitous in natural language processing (NLP)
tasks. There are multiple reasons for such disagreements, including the
subjectivity of the task, difficult cases, unclear guidelines, and so on.
Rather than simply aggregating labels to obtain data annotations, we instead
propose to explicitly account for the annotator idiosyncrasies and leverage
them in the modeling process. We create representations for the annotators
(annotator embeddings) and their annotations (annotation embeddings) with
learnable matrices associated with each. Our approach significantly improves
model performance on various NLP benchmarks by adding fewer than 1% model
parameters. By capturing the unique tendencies and subjectivity of individual
annotators, our embeddings help democratize AI and ensure that AI models are
inclusive of diverse viewpoints.
- Abstract(参考訳): アノテーションの不一致は自然言語処理(NLP)タスクにおいてユビキタスである。
このような意見の相違には、課題の主観性、難しい事例、不明瞭なガイドラインなど、さまざまな理由がある。
データアノテーションを取得するために単にラベルを集約するのではなく、アノテーションの慣用句を明示的に説明し、モデリングプロセスでそれらを活用することを提案します。
アノテーション(アノテーション埋め込み)とそのアノテーション(アノテーション埋め込み)の表現を作り、それぞれに関連付けられた学習可能な行列で表現します。
提案手法は,1%未満のモデルパラメータを追加することにより,様々なNLPベンチマークにおけるモデル性能を著しく向上させる。
個々のアノテータの独特な傾向と主観性を捉えることで、私たちの埋め込みはAIを民主化し、AIモデルが多様な視点を包含していることを保証する。
関連論文リスト
- Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。
毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。
本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - Everyone's Voice Matters: Quantifying Annotation Disagreement Using
Demographic Information [11.227630261409706]
本研究では,タスクのテキストとアノテータの階層的背景情報を用いて,アノテータ間の不一致の程度を推定できるかどうかを検討する。
その結果, 性別, 民族, 教育水準などのアノテータの人口統計情報を知ることは, 意見の不一致の予測に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-01-12T14:04:53Z) - SeedBERT: Recovering Annotator Rating Distributions from an Aggregated
Label [43.23903984174963]
単一ラベルからアノテータ評価分布を復元するSeedBERTを提案する。
人間の評価は,SeedBERTの注意機構がアノテータの不一致の原因と一致していることを示している。
論文 参考訳(メタデータ) (2022-11-23T18:35:15Z) - Selective Annotation Makes Language Models Better Few-Shot Learners [97.07544941620367]
大規模な言語モデルはコンテキスト内学習を実行でき、いくつかのタスクデモから新しいタスクを学ぶことができる。
本研究は、新しい自然言語タスクのためのデータセット作成において、文脈内学習がもたらす意味について考察する。
本稿では,無教師付きグラフベースの選択的アノテーションであるvoke-kを提案する。
論文 参考訳(メタデータ) (2022-09-05T14:01:15Z) - Two Contrasting Data Annotation Paradigms for Subjective NLP Tasks [17.033055327465238]
データアノテーションのためのコントラストパラダイムを2つ提案する。
記述的パラダイムはアノテータの主観性を促進するが、規範的パラダイムはそれを妨げている。
データセット作成者は、データセットの意図した使用を促進するために、どちらか一方を明示的に目標にすべきである、と私たちは主張する。
論文 参考訳(メタデータ) (2021-12-14T15:38:22Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - A Simple Language Model for Task-Oriented Dialogue [61.84084939472287]
SimpleTODはタスク指向対話に対する単純なアプローチであり、すべてのサブタスクのリキャストで訓練された単一因果言語モデルを単一シーケンス予測問題として利用する。
これによりSimpleTODは、事前訓練されたオープンドメイン、GPT-2のような因果言語モデルからのトランスファー学習を完全に活用できる。
論文 参考訳(メタデータ) (2020-05-02T11:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。