論文の概要: Cost-efficient Crowdsourcing for Span-based Sequence Labeling: Worker Selection and Data Augmentation
- arxiv url: http://arxiv.org/abs/2305.06683v2
- Date: Sat, 27 Jul 2024 07:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 01:16:44.596214
- Title: Cost-efficient Crowdsourcing for Span-based Sequence Labeling: Worker Selection and Data Augmentation
- Title(参考訳): Span-based Sequence Labelingのための費用効率の高いクラウドソーシング:作業者選択とデータ拡張
- Authors: Yujie Wang, Chao Huang, Liner Yang, Zhixuan Fang, Yaping Huang, Yang Liu, Jingsi Yu, Erhong Yang,
- Abstract要約: 本稿では,新たなクラウドソーシング作業者選択アルゴリズムを導入し,アノテーションの品質向上とコスト削減を図る。
提案アルゴリズムは,作業者選択にコンビニアル・マルチアーマッド・バンドイット(CMAB)アプローチ,コスト効率のよいフィードバック機構を利用する。
- 参考スコア(独自算出の注目度): 30.179968217703635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a novel crowdsourcing worker selection algorithm, enhancing annotation quality and reducing costs. Unlike previous studies targeting simpler tasks, this study contends with the complexities of label interdependencies in sequence labeling. The proposed algorithm utilizes a Combinatorial Multi-Armed Bandit (CMAB) approach for worker selection, and a cost-effective human feedback mechanism. The challenge of dealing with imbalanced and small-scale datasets, which hinders offline simulation of worker selection, is tackled using an innovative data augmentation method termed shifting, expanding, and shrinking (SES). Rigorous testing on CoNLL 2003 NER and Chinese OEI datasets showcased the algorithm's efficiency, with an increase in F1 score up to 100.04% of the expert-only baseline, alongside cost savings up to 65.97%. The paper also encompasses a dataset-independent test emulating annotation evaluation through a Bernoulli distribution, which still led to an impressive 97.56% F1 score of the expert baseline and 59.88% cost savings. Furthermore, our approach can be seamlessly integrated into Reinforcement Learning from Human Feedback (RLHF) systems, offering a cost-effective solution for obtaining human feedback.
- Abstract(参考訳): 本稿では,新たなクラウドソーシング作業者選択アルゴリズムを導入し,アノテーションの品質向上とコスト削減を図る。
従来の単純なタスクを対象とする研究とは異なり、この研究はシークエンスラベリングにおけるラベル相互依存性の複雑さと競合する。
提案アルゴリズムは,作業者選択にコンビニアル・マルチアーマッド・バンドイット(CMAB)アプローチ,コスト効率のよいフィードバック機構を利用する。
労働者選択のオフラインシミュレーションを妨げる不均衡データセットと小規模データセットを扱うという課題は、シフト、拡張、縮小(SES)と呼ばれる革新的なデータ拡張手法によって解決される。
CoNLL 2003 NERと中国のOEIデータセットの厳密なテストではアルゴリズムの効率が示され、F1のスコアはエキスパートのみのベースラインの100.04%まで上昇し、コストは65.97%まで削減された。
論文ではまた、Bernoulli分布によるアノテーション評価をデータセットに依存しないテストでエミュレートし、エキスパートベースラインの97.56%のF1スコアと59.88%のコスト削減を実現している。
さらに,本手法を人間フィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)システムにシームレスに統合することで,人間のフィードバックを得るための費用対効果の高いソリューションを提供する。
関連論文リスト
- TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data [29.45013725650798]
完全なデータセットに匹敵するパフォーマンスを達成する命令データセットのサブセットを抽出することが不可欠である。
タスク非依存のグラディエントクラスタ化コレセット選択(TAGCOS)を提案する。
具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。
論文 参考訳(メタデータ) (2024-07-21T17:59:20Z) - End-to-End Trainable Soft Retriever for Low-resource Relation Extraction [7.613942320502336]
本研究は,テキスト生成モデルを用いたインスタンスベースの関係抽出における重要な課題に対処する。
本稿では, ニューラルプロンプト法により, エンド・ツー・エンドのトラインブル・ソフトKアネレスト・リトリーバー (ETRASK) を提案する。
論文 参考訳(メタデータ) (2024-06-06T07:01:50Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Bandit-Driven Batch Selection for Robust Learning under Label Noise [20.202806541218944]
本稿では,SGD(Gradient Descent)トレーニングにおけるバッチ選択のための新しい手法を提案する。
本手法は,ラベルノイズの存在下での学習過程の最適化に重点を置いている。
論文 参考訳(メタデータ) (2023-10-31T19:19:01Z) - Fake detection in imbalance dataset by Semi-supervised learning with GAN [1.4542411354617986]
本研究は,100個のラベル付きサンプルを用いた偽アカウントの検出において,81%の精度を達成し,この分野に寄与する。
これは、マイノリティクラスを扱い、偽アカウント検出におけるビッグデータの問題に対処するための強力なツールとしてのSGANの可能性を示している。
論文 参考訳(メタデータ) (2022-12-02T10:22:18Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - UNICON: Combating Label Noise Through Uniform Selection and Contrastive
Learning [89.56465237941013]
UNICONは,高ラベル雑音に対して頑健な,シンプルで効果的なサンプル選択法である。
90%のノイズレートでCIFAR100データセットの最先端データよりも11.4%改善した。
論文 参考訳(メタデータ) (2022-03-28T07:36:36Z) - Truth Discovery in Sequence Labels from Crowds [12.181422057560201]
Amazon Mechanical Turk (AMT)のようなクラウドソーシングプラットフォームは、この目的のためにデプロイされている。
アノテーションアグリゲーションにおける既存の文献は、アノテーションは独立しており、シーケンシャルなラベルアグリゲーションタスクを扱う際の課題に直面していると仮定している。
逐次ラベリングタスクにおいて,作業者が提供するアノテーションを用いて,真理ラベルを推測する最適化手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T19:12:13Z) - An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP [88.65488361532158]
豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
論文 参考訳(メタデータ) (2021-06-14T15:27:22Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。