論文の概要: Annotation Imputation to Individualize Predictions: Initial Studies on
Distribution Dynamics and Model Predictions
- arxiv url: http://arxiv.org/abs/2305.15070v1
- Date: Wed, 24 May 2023 11:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:18:24.485866
- Title: Annotation Imputation to Individualize Predictions: Initial Studies on
Distribution Dynamics and Model Predictions
- Title(参考訳): 予測を個人化するアノテーションインプテーション:分布ダイナミクスとモデル予測に関する初期研究
- Authors: London Lowmanstone, Ruyuan Wan, Risako Owan, Jaehyung Kim, Dongyeop
Kang
- Abstract要約: 提案手法は,すべての例に対して全アノテータの意見を復元するための命令法である。
次に、インプットされたデータセットからデータを使ってモデルをトレーニングし、プロンプトして、多数派と個別のアノテーションについて予測します。
- 参考スコア(独自算出の注目度): 9.14466135658248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Annotating data via crowdsourcing is time-consuming and expensive. Owing to
these costs, dataset creators often have each annotator label only a small
subset of the data. This leads to sparse datasets with examples that are marked
by few annotators; if an annotator is not selected to label an example, their
opinion regarding it is lost. This is especially concerning for subjective NLP
datasets where there is no correct label: people may have different valid
opinions. Thus, we propose using imputation methods to restore the opinions of
all annotators for all examples, creating a dataset that does not leave out any
annotator's view. We then train and prompt models with data from the imputed
dataset (rather than the original sparse dataset) to make predictions about
majority and individual annotations. Unfortunately, the imputed data provided
by our baseline methods does not improve predictions. However, through our
analysis of it, we develop a strong understanding of how different imputation
methods impact the original data in order to inform future imputation
techniques. We make all of our code and data publicly available.
- Abstract(参考訳): クラウドソーシングによるデータアノテートには時間と費用がかかる。
これらのコストのため、データセットの作成者は、データの小さなサブセットのみにアノテータラベルを付けることが多い。
アノテーションタがサンプルをラベル付けするために選択されていない場合、アノテーションに関する彼らの意見は失われる。
これは、正確なラベルがない主観的なNLPデータセットに特に関係している。
そこで本研究では,すべてのアノテータの意見を復元するための命令法を提案し,アノテータの視点を残さずにデータセットを作成する。
次に、インプットされたデータセット(元のスパースデータセットではなく)のデータでモデルをトレーニングし、プロンプトして、多数派と個別のアノテーションに関する予測を行います。
残念ながら、ベースライン手法によって提供されるインプットデータでは予測が改善されない。
しかし,本論文の分析により,異なるインプテーション手法が元のデータにどのように影響するかを深く理解し,今後のインプテーション手法を示唆する。
すべてのコードとデータを公開しています。
関連論文リスト
- From Random to Informed Data Selection: A Diversity-Based Approach to
Optimize Human Annotation and Few-Shot Learning [38.30983556062276]
自然言語処理における大きな課題は、教師付き学習のための注釈付きデータを取得することである。
クラウドソーシングは、アノテータの経験、一貫性、バイアスに関連する問題を導入する。
本稿では,数ショット学習のための小さなデータセットを構築するための,自動的および情報的データ選択アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:57:32Z) - Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。
毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。
本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Are labels informative in semi-supervised learning? -- Estimating and
leveraging the missing-data mechanism [4.675583319625962]
半教師付き学習は、ラベルのないデータを利用して機械学習モデルを改善するための強力な技術である。
これは、あるクラスが他のクラスよりもラベル付けされる可能性が高い場合に発生する、情報的ラベルの存在に影響される可能性がある。
本稿では,データ不足のメカニズムを推定し,逆確率重み付けを用いてSSLアルゴリズムを劣化させることにより,この問題に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T09:18:46Z) - SeedBERT: Recovering Annotator Rating Distributions from an Aggregated
Label [43.23903984174963]
単一ラベルからアノテータ評価分布を復元するSeedBERTを提案する。
人間の評価は,SeedBERTの注意機構がアノテータの不一致の原因と一致していることを示している。
論文 参考訳(メタデータ) (2022-11-23T18:35:15Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。
予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。
これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-14T12:20:54Z) - Multi-label Classification with Partial Annotations using Class-aware
Selective Loss [14.3159150577502]
大規模なマルチラベル分類データセットは、一般的に部分的に注釈付けされている。
部分的なラベリング問題を解析し、2つの重要なアイデアに基づいた解を提案する。
われわれの新しいアプローチにより、OpenImagesデータセット上で最先端の結果が得られる。
論文 参考訳(メタデータ) (2021-10-21T08:10:55Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z) - Instance Correction for Learning with Open-set Noisy Labels [145.06552420999986]
オープンセットノイズラベルの処理にはサンプル選択方式を用いる。
廃棄されたデータは間違ったラベルで書かれており、トレーニングには参加していない。
廃棄されたデータのインスタンスを変更して、廃棄されたデータの予測をラベルに一致させる。
論文 参考訳(メタデータ) (2021-06-01T13:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。