論文の概要: Cost-efficient Crowdsourcing for Span-based Sequence Labeling: Worker
Selection and Data Augmentation
- arxiv url: http://arxiv.org/abs/2305.06683v1
- Date: Thu, 11 May 2023 09:40:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 15:19:59.551337
- Title: Cost-efficient Crowdsourcing for Span-based Sequence Labeling: Worker
Selection and Data Augmentation
- Title(参考訳): スパンベースシーケンスラベリングのためのコスト効率の高いクラウドソーシング:ワーカー選択とデータ拡張
- Authors: Yujie Wang, Chao Huang, Liner Yang, Zhixuan Fang, Yaping Huang, Yang
Liu, Erhong Yang
- Abstract要約: 本研究は、シーケンシャルラベリングタスクにおけるラベル相互依存性の複雑さと競合する。
提案アルゴリズムは,Multiial Multi-Armed Bandit (CMAB) アプローチを用いて作業者選択を行う。
- 参考スコア(独自算出の注目度): 26.462370031232314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a novel worker selection algorithm, enhancing
annotation quality and reducing costs in challenging span-based sequence
labeling tasks in Natural Language Processing (NLP). Unlike previous studies
targeting simpler tasks, this study contends with the complexities of label
interdependencies in sequence labeling tasks. The proposed algorithm utilizes a
Combinatorial Multi-Armed Bandit (CMAB) approach for worker selection. The
challenge of dealing with imbalanced and small-scale datasets, which hinders
offline simulation of worker selection, is tackled using an innovative data
augmentation method termed shifting, expanding, and shrinking (SES). The SES
method is designed specifically for sequence labeling tasks. Rigorous testing
on CoNLL 2003 NER and Chinese OEI datasets showcased the algorithm's
efficiency, with an increase in F1 score up to 100.04% of the expert-only
baseline, alongside cost savings up to 65.97%. The paper also encompasses a
dataset-independent test emulating annotation evaluation through a Bernoulli
distribution, which still led to an impressive 97.56% F1 score of the expert
baseline and 59.88% cost savings. This research addresses and overcomes
numerous obstacles in worker selection for complex NLP tasks.
- Abstract(参考訳): 本稿では,自然言語処理(nlp)におけるスパンベースシーケンスラベリングタスクにおけるアノテーション品質の向上とコスト削減を実現する,新たなワーカ選択アルゴリズムを提案する。
従来の単純なタスクを対象とする研究とは異なり、この研究はシーケンシャルラベリングタスクにおけるラベル相互依存性の複雑さと競合する。
提案アルゴリズムは,Multiial Multi-Armed Bandit (CMAB) アプローチを用いて作業者選択を行う。
労働者選択のオフラインシミュレーションを妨げる不均衡データセットと小規模データセットを扱うという課題は、シフト、拡張、縮小(SES)と呼ばれる革新的なデータ拡張手法によって解決される。
SES法はシーケンスラベリングタスクに特化して設計されている。
CoNLL 2003 NERと中国のOEIデータセットの厳密なテストではアルゴリズムの効率が示され、F1のスコアはエキスパートのみのベースラインの100.04%まで上昇し、コストは65.97%まで削減された。
論文ではまた、Bernoulli分布によるアノテーション評価をデータセットに依存しないテストでエミュレートし、エキスパートベースラインの97.56%のF1スコアと59.88%のコスト削減を実現している。
本研究は、複雑なNLPタスクの作業者選択における多くの障害に対処し克服する。
関連論文リスト
- Generative Reward Models [42.30530024761532]
RLHF(Reinforcement Learning from Human Feedback)は、現代の大規模言語モデル(LLM)の性能を大幅に改善した。
近年の研究では、合成選好ラベルは人間の選好判断とうまく一致していないことが示されている。
本稿では RLHF と RLAIF の方法論を統一するハイブリッド手法を提案する。
以上の結果から,RLHFとRLAIFの強度を組み合わせることで,合成選好ラベルの品質向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:58:39Z) - Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。
提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2024-07-02T10:09:19Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Bandit-Driven Batch Selection for Robust Learning under Label Noise [20.202806541218944]
本稿では,SGD(Gradient Descent)トレーニングにおけるバッチ選択のための新しい手法を提案する。
本手法は,ラベルノイズの存在下での学習過程の最適化に重点を置いている。
論文 参考訳(メタデータ) (2023-10-31T19:19:01Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z) - Mitigating Observation Biases in Crowdsourced Label Aggregation [19.460509608096217]
クラウドソーシングから高品質な結果を得るための技術的課題の1つは、それが人間であるという事実によって引き起こされる変動性とバイアスを扱うことである。
本研究では,クラウドソーシングにおける観察バイアスに着目した。
作業者のレスポンスの頻度とタスクの複雑さの変化は、集約結果に影響を与える可能性がある。
論文 参考訳(メタデータ) (2023-02-25T15:19:13Z) - Fed-CBS: A Heterogeneity-Aware Client Sampling Mechanism for Federated
Learning via Class-Imbalance Reduction [76.26710990597498]
本研究では,ランダムに選択したクライアントからのグループデータのクラス不均衡が,性能の大幅な低下につながることを示す。
我々のキーとなる観測に基づいて、我々は効率的なクライアントサンプリング機構、すなわちフェデレートクラスバランスサンプリング(Fed-CBS)を設計する。
特に、クラス不均衡の尺度を提案し、その後、同型暗号化を用いてプライバシー保護方式でこの尺度を導出する。
論文 参考訳(メタデータ) (2022-09-30T05:42:56Z) - Offline Reinforcement Learning at Multiple Frequencies [62.08749079914275]
本研究では、オフライン強化学習アルゴリズムが、トレーニング中に複数の周波数を混合したデータに対応できるかどうかについて検討する。
学習を安定させるために$Q$-valueの更新率で一貫性を強制する、単純だが効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:54:49Z) - Data-Driven Evolutionary Multi-Objective Optimization Based on
Multiple-Gradient Descent for Disconnected Pareto Fronts [6.560512252982714]
本稿では,データ駆動型進化的多目的最適化(EMO)アルゴリズムを提案する。
そのインフィル基準は、高価な客観的関数評価を行うための、有望な候補ソリューションのバッチを推奨している。
論文 参考訳(メタデータ) (2022-05-28T06:01:41Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。