論文の概要: Cost-efficient Crowdsourcing for Span-based Sequence Labeling: Worker
Selection and Data Augmentation
- arxiv url: http://arxiv.org/abs/2305.06683v1
- Date: Thu, 11 May 2023 09:40:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 15:19:59.551337
- Title: Cost-efficient Crowdsourcing for Span-based Sequence Labeling: Worker
Selection and Data Augmentation
- Title(参考訳): スパンベースシーケンスラベリングのためのコスト効率の高いクラウドソーシング:ワーカー選択とデータ拡張
- Authors: Yujie Wang, Chao Huang, Liner Yang, Zhixuan Fang, Yaping Huang, Yang
Liu, Erhong Yang
- Abstract要約: 本研究は、シーケンシャルラベリングタスクにおけるラベル相互依存性の複雑さと競合する。
提案アルゴリズムは,Multiial Multi-Armed Bandit (CMAB) アプローチを用いて作業者選択を行う。
- 参考スコア(独自算出の注目度): 26.462370031232314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a novel worker selection algorithm, enhancing
annotation quality and reducing costs in challenging span-based sequence
labeling tasks in Natural Language Processing (NLP). Unlike previous studies
targeting simpler tasks, this study contends with the complexities of label
interdependencies in sequence labeling tasks. The proposed algorithm utilizes a
Combinatorial Multi-Armed Bandit (CMAB) approach for worker selection. The
challenge of dealing with imbalanced and small-scale datasets, which hinders
offline simulation of worker selection, is tackled using an innovative data
augmentation method termed shifting, expanding, and shrinking (SES). The SES
method is designed specifically for sequence labeling tasks. Rigorous testing
on CoNLL 2003 NER and Chinese OEI datasets showcased the algorithm's
efficiency, with an increase in F1 score up to 100.04% of the expert-only
baseline, alongside cost savings up to 65.97%. The paper also encompasses a
dataset-independent test emulating annotation evaluation through a Bernoulli
distribution, which still led to an impressive 97.56% F1 score of the expert
baseline and 59.88% cost savings. This research addresses and overcomes
numerous obstacles in worker selection for complex NLP tasks.
- Abstract(参考訳): 本稿では,自然言語処理(nlp)におけるスパンベースシーケンスラベリングタスクにおけるアノテーション品質の向上とコスト削減を実現する,新たなワーカ選択アルゴリズムを提案する。
従来の単純なタスクを対象とする研究とは異なり、この研究はシーケンシャルラベリングタスクにおけるラベル相互依存性の複雑さと競合する。
提案アルゴリズムは,Multiial Multi-Armed Bandit (CMAB) アプローチを用いて作業者選択を行う。
労働者選択のオフラインシミュレーションを妨げる不均衡データセットと小規模データセットを扱うという課題は、シフト、拡張、縮小(SES)と呼ばれる革新的なデータ拡張手法によって解決される。
SES法はシーケンスラベリングタスクに特化して設計されている。
CoNLL 2003 NERと中国のOEIデータセットの厳密なテストではアルゴリズムの効率が示され、F1のスコアはエキスパートのみのベースラインの100.04%まで上昇し、コストは65.97%まで削減された。
論文ではまた、Bernoulli分布によるアノテーション評価をデータセットに依存しないテストでエミュレートし、エキスパートベースラインの97.56%のF1スコアと59.88%のコスト削減を実現している。
本研究は、複雑なNLPタスクの作業者選択における多くの障害に対処し克服する。
関連論文リスト
- A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Bandit-Driven Batch Selection for Robust Learning under Label Noise [20.202806541218944]
本稿では,SGD(Gradient Descent)トレーニングにおけるバッチ選択のための新しい手法を提案する。
本手法は,ラベルノイズの存在下での学習過程の最適化に重点を置いている。
論文 参考訳(メタデータ) (2023-10-31T19:19:01Z) - Zero-shot Preference Learning for Offline RL via Optimal Transport [20.48407477084374]
本稿では,対象タスクのラベルを推測するために,ソースタスクからのラベル付き選好データを活用するゼロショット選好ベースRLアルゴリズムを提案する。
本手法は,スクリプトラベルの少ないニアオークル性能を実現する。
論文 参考訳(メタデータ) (2023-06-06T12:07:50Z) - Fake detection in imbalance dataset by Semi-supervised learning with GAN [1.4542411354617986]
本研究は,100個のラベル付きサンプルを用いた偽アカウントの検出において,81%の精度を達成し,この分野に寄与する。
これは、マイノリティクラスを扱い、偽アカウント検出におけるビッグデータの問題に対処するための強力なツールとしてのSGANの可能性を示している。
論文 参考訳(メタデータ) (2022-12-02T10:22:18Z) - Data Lifecycle Management in Evolving Input Distributions for
Learning-based Aerospace Applications [23.84037777018747]
本稿では,テスト入力のサブセットをラベルに選択することで,モデルを段階的に再学習するフレームワークを提案する。
本フレームワーク内のアルゴリズムは,(1)ミッション寿命を通してのモデル性能と(2)ラベル付けとモデル再訓練に関連する累積コストに基づいて評価される。
論文 参考訳(メタデータ) (2022-09-14T18:15:56Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - UNICON: Combating Label Noise Through Uniform Selection and Contrastive
Learning [89.56465237941013]
UNICONは,高ラベル雑音に対して頑健な,シンプルで効果的なサンプル選択法である。
90%のノイズレートでCIFAR100データセットの最先端データよりも11.4%改善した。
論文 参考訳(メタデータ) (2022-03-28T07:36:36Z) - Truth Discovery in Sequence Labels from Crowds [12.181422057560201]
Amazon Mechanical Turk (AMT)のようなクラウドソーシングプラットフォームは、この目的のためにデプロイされている。
アノテーションアグリゲーションにおける既存の文献は、アノテーションは独立しており、シーケンシャルなラベルアグリゲーションタスクを扱う際の課題に直面していると仮定している。
逐次ラベリングタスクにおいて,作業者が提供するアノテーションを用いて,真理ラベルを推測する最適化手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T19:12:13Z) - An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP [88.65488361532158]
豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
論文 参考訳(メタデータ) (2021-06-14T15:27:22Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。