論文の概要: A Comparative Study on Annotation Quality of Crowdsourcing and LLM via
Label Aggregation
- arxiv url: http://arxiv.org/abs/2401.09760v1
- Date: Thu, 18 Jan 2024 07:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 17:48:14.929929
- Title: A Comparative Study on Annotation Quality of Crowdsourcing and LLM via
Label Aggregation
- Title(参考訳): ラベル集約によるクラウドソーシングとLCMのアノテーション品質の比較検討
- Authors: Jiyi Li
- Abstract要約: 既存のクラウドソーシングデータセットを比較検討し,ベンチマークを作成する。
次に,各群集ラベルとLCMラベルの質を比較し,集計ラベルの評価を行う。
既存のクラウドソーシングデータセットに優れたLLMラベルからLLMラベルを追加することで、集約されたラベルの品質を向上させることができる。
- 参考スコア(独自算出の注目度): 6.871295804618002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whether Large Language Models (LLMs) can outperform crowdsourcing on the data
annotation task is attracting interest recently. Some works verified this issue
with the average performance of individual crowd workers and LLM workers on
some specific NLP tasks by collecting new datasets. However, on the one hand,
existing datasets for the studies of annotation quality in crowdsourcing are
not yet utilized in such evaluations, which potentially provide reliable
evaluations from a different viewpoint. On the other hand, the quality of these
aggregated labels is crucial because, when utilizing crowdsourcing, the
estimated labels aggregated from multiple crowd labels to the same instances
are the eventually collected labels. Therefore, in this paper, we first
investigate which existing crowdsourcing datasets can be used for a comparative
study and create a benchmark. We then compare the quality between individual
crowd labels and LLM labels and make the evaluations on the aggregated labels.
In addition, we propose a Crowd-LLM hybrid label aggregation method and verify
the performance. We find that adding LLM labels from good LLMs to existing
crowdsourcing datasets can enhance the quality of the aggregated labels of the
datasets, which is also higher than the quality of LLM labels themselves.
- Abstract(参考訳): 大規模言語モデル(LLM)がデータアノテーションタスクのクラウドソーシングを上回っているかどうかは、最近注目を集めている。
一部の研究は、新しいデータセットを収集して特定のNLPタスクにおいて、個々の群衆労働者とLLM労働者の平均的なパフォーマンスでこの問題を検証した。
しかし,クラウドソーシングにおける注釈品質研究のための既存のデータセットはまだそのような評価には利用されていないため,異なる視点から信頼性の高い評価が提供される可能性がある。
一方で,クラウドソーシングを利用する場合,複数のクラウドラベルから同じインスタンスに集約された推定ラベルが最終的に収集されたラベルであるため,これらの集約ラベルの品質が重要である。
そこで本稿では,まず,既存のクラウドソーシングデータセットを比較研究に利用し,ベンチマークを作成する方法について検討する。
次に,個々人の群集ラベルとllmラベルの質を比較し,総合ラベルの評価を行う。
さらに,Crowd-LLMハイブリッドラベルアグリゲーション手法を提案し,その性能を検証する。
既存のクラウドソーシングデータセットに優れたLLMラベルを付加することで,データセットの集約ラベルの品質が向上し,LLMラベル自体の品質よりも高いことが判明した。
関連論文リスト
- Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance [21.926934384262594]
大きな言語モデル(LLM)は、アノテーションプロセスを強化する新しい機会を提供する。
合意、ラベルの品質、効率の点で、専門家、クラウドソース、LLMベースのアノテーションを比較します。
以上の結果から,ラベルエラーがかなり多く,修正されると,報告されたモデル性能が大幅に上向きに変化することが判明した。
論文 参考訳(メタデータ) (2024-10-24T16:27:03Z) - Learning to Predict Usage Options of Product Reviews with LLM-Generated Labels [14.006486214852444]
複雑な自然言語タスクにおけるデータアノテートのための,少人数の学習者としてLLMを使用する手法を提案する。
カスタムモデルを学ぶことは、エネルギー効率とプライバシー対策を個別に制御する。
結果のデータの質が、サードパーティのベンダーサービスによって達成されたレベルを超えていることに気付きました。
論文 参考訳(メタデータ) (2024-10-16T11:34:33Z) - Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。
本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。
ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:59:44Z) - Exploiting Conjugate Label Information for Multi-Instance Partial-Label Learning [61.00359941983515]
MIPL(Multi-instance partial-label Learning)は、各トレーニングサンプルが1つの真のラベルといくつかの偽陽性を含む候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現されるシナリオに対処する。
ELIMIPLは共役ラベル情報を利用して曖昧性を改善する。
論文 参考訳(メタデータ) (2024-08-26T15:49:31Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Binary Classification with Positive Labeling Sources [71.37692084951355]
WEAPOは、負のラベル付け源を使わずにトレーニングラベルを作成するための、シンプルで競争力のあるWS手法である。
We show WEAPO achieve the highest averaged performance on 10 benchmark datasets。
論文 参考訳(メタデータ) (2022-08-02T19:32:08Z) - Eliciting and Learning with Soft Labels from Every Annotator [31.10635260890126]
個々のアノテータからソフトラベルを効率よく抽出することに注力する。
ラベルによる学習は,従来の手法と同等のモデル性能を達成できることを実証する。
論文 参考訳(メタデータ) (2022-07-02T12:03:00Z) - An Empirical Investigation of Learning from Biased Toxicity Labels [15.822714574671412]
我々は,人間の注釈付きラベルの小さなデータセットと,合成されたラベルの大きいがノイズの多いデータセットを,異なるトレーニング戦略が活用できるかを検討する。
これらの手法の精度と公平性、および両者のトレードオフを評価する。
論文 参考訳(メタデータ) (2021-10-04T17:19:57Z) - Bayesian Semi-supervised Crowdsourcing [71.20185379303479]
クラウドソーシングは、大規模なデータセットを効率的にラベル付けし、さまざまな学習タスクを実行するための強力なパラダイムとして登場した。
この研究は、半スーパービジョンの2つの体制の下で、半教師付きクラウドソース分類を扱う。
論文 参考訳(メタデータ) (2020-12-20T23:18:51Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z) - Generalized Label Enhancement with Sample Correlations [24.582764493585362]
サンプル相関付きラベル拡張(LESC)と、サンプル相関付きラベル拡張(gLESC)の2つの新しいラベル拡張手法を提案する。
サンプル相関から,提案手法はラベル強化性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-07T03:32:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。