論文の概要: Annotation Imputation to Individualize Predictions: Initial Studies on
Distribution Dynamics and Model Predictions
- arxiv url: http://arxiv.org/abs/2305.15070v3
- Date: Thu, 5 Oct 2023 07:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 22:22:49.882235
- Title: Annotation Imputation to Individualize Predictions: Initial Studies on
Distribution Dynamics and Model Predictions
- Title(参考訳): 予測を個人化するアノテーションインプテーション:分布ダイナミクスとモデル予測に関する初期研究
- Authors: London Lowmanstone, Ruyuan Wan, Risako Owan, Jaehyung Kim, Dongyeop
Kang
- Abstract要約: 提案手法は,すべての例に対して全アノテータの意見を生成するための命令法である。
次に、インプットされたデータセットのデータを使用してモデルをトレーニングし、プロンプトし、レスポンスと個々のアノテーションの分布を予測します。
- 参考スコア(独自算出の注目度): 20.74423180342303
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Annotating data via crowdsourcing is time-consuming and expensive. Due to
these costs, dataset creators often have each annotator label only a small
subset of the data. This leads to sparse datasets with examples that are marked
by few annotators. The downside of this process is that if an annotator doesn't
get to label a particular example, their perspective on it is missed. This is
especially concerning for subjective NLP datasets where there is no single
correct label: people may have different valid opinions. Thus, we propose using
imputation methods to generate the opinions of all annotators for all examples,
creating a dataset that does not leave out any annotator's view. We then train
and prompt models, using data from the imputed dataset, to make predictions
about the distribution of responses and individual annotations.
In our analysis of the results, we found that the choice of imputation method
significantly impacts soft label changes and distribution. While the imputation
introduces noise in the prediction of the original dataset, it has shown
potential in enhancing shots for prompts, particularly for low-response-rate
annotators. We have made all of our code and data publicly available.
- Abstract(参考訳): クラウドソーシングによるデータアノテートには時間と費用がかかる。
これらのコストのため、データセットの作成者は、データの小さなサブセットだけをアノテータにラベル付けすることが多い。
これにより、少数のアノテーションによってマークされた例でデータセットがスパースされる。
このプロセスの欠点は、アノテータが特定の例をラベル付けできなければ、それに対する彼らの見解が失われてしまうことだ。
これは、単一の正しいラベルが存在しない主観的なNLPデータセットに特に関係している。
そこで本研究では,すべての例に対する注釈者の意見を生成するためにインプテーション法を用いることを提案し,注釈者の視点を一切残さないデータセットを作成する。
次に、インプットされたデータセットのデータを使用してモデルをトレーニングし、プロンプトし、レスポンスと個々のアノテーションの分布を予測します。
その結果,計算方法の選択がソフトラベルの変化や分布に大きく影響していることが判明した。
命令は元のデータセットの予測にノイズをもたらすが、プロンプト、特に低応答レートアノテータのショットを強化する可能性を示している。
すべてのコードとデータを公開しました。
関連論文リスト
- From Random to Informed Data Selection: A Diversity-Based Approach to
Optimize Human Annotation and Few-Shot Learning [38.30983556062276]
自然言語処理における大きな課題は、教師付き学習のための注釈付きデータを取得することである。
クラウドソーシングは、アノテータの経験、一貫性、バイアスに関連する問題を導入する。
本稿では,数ショット学習のための小さなデータセットを構築するための,自動的および情報的データ選択アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:57:32Z) - Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。
毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。
本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Are labels informative in semi-supervised learning? -- Estimating and
leveraging the missing-data mechanism [4.675583319625962]
半教師付き学習は、ラベルのないデータを利用して機械学習モデルを改善するための強力な技術である。
これは、あるクラスが他のクラスよりもラベル付けされる可能性が高い場合に発生する、情報的ラベルの存在に影響される可能性がある。
本稿では,データ不足のメカニズムを推定し,逆確率重み付けを用いてSSLアルゴリズムを劣化させることにより,この問題に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T09:18:46Z) - SeedBERT: Recovering Annotator Rating Distributions from an Aggregated
Label [43.23903984174963]
単一ラベルからアノテータ評価分布を復元するSeedBERTを提案する。
人間の評価は,SeedBERTの注意機構がアノテータの不一致の原因と一致していることを示している。
論文 参考訳(メタデータ) (2022-11-23T18:35:15Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。
予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。
これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-14T12:20:54Z) - Multi-label Classification with Partial Annotations using Class-aware
Selective Loss [14.3159150577502]
大規模なマルチラベル分類データセットは、一般的に部分的に注釈付けされている。
部分的なラベリング問題を解析し、2つの重要なアイデアに基づいた解を提案する。
われわれの新しいアプローチにより、OpenImagesデータセット上で最先端の結果が得られる。
論文 参考訳(メタデータ) (2021-10-21T08:10:55Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z) - Instance Correction for Learning with Open-set Noisy Labels [145.06552420999986]
オープンセットノイズラベルの処理にはサンプル選択方式を用いる。
廃棄されたデータは間違ったラベルで書かれており、トレーニングには参加していない。
廃棄されたデータのインスタンスを変更して、廃棄されたデータの予測をラベルに一致させる。
論文 参考訳(メタデータ) (2021-06-01T13:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。