論文の概要: Truth Discovery in Sequence Labels from Crowds
- arxiv url: http://arxiv.org/abs/2109.04470v2
- Date: Sat, 1 Jul 2023 23:38:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 16:36:47.863384
- Title: Truth Discovery in Sequence Labels from Crowds
- Title(参考訳): 群衆からのシーケンスラベルの真理発見
- Authors: Nasim Sabetpour, Adithya Kulkarni, Sihong Xie, Qi Li
- Abstract要約: Amazon Mechanical Turk (AMT)のようなクラウドソーシングプラットフォームは、この目的のためにデプロイされている。
アノテーションアグリゲーションにおける既存の文献は、アノテーションは独立しており、シーケンシャルなラベルアグリゲーションタスクを扱う際の課題に直面していると仮定している。
逐次ラベリングタスクにおいて,作業者が提供するアノテーションを用いて,真理ラベルを推測する最適化手法を提案する。
- 参考スコア(独自算出の注目度): 12.181422057560201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Annotation quality and quantity positively affect the learning performance of
sequence labeling, a vital task in Natural Language Processing. Hiring domain
experts to annotate a corpus is very costly in terms of money and time.
Crowdsourcing platforms, such as Amazon Mechanical Turk (AMT), have been
deployed to assist in this purpose. However, the annotations collected this way
are prone to human errors due to the lack of expertise of the crowd workers.
Existing literature in annotation aggregation assumes that annotations are
independent and thus faces challenges when handling the sequential label
aggregation tasks with complex dependencies. To conquer the challenges, we
propose an optimization-based method that infers the ground truth labels using
annotations provided by workers for sequential labeling tasks. The proposed
Aggregation method for Sequential Labels from Crowds ($AggSLC$) jointly
considers the characteristics of sequential labeling tasks, workers'
reliabilities, and advanced machine learning techniques. Theoretical analysis
on the algorithm's convergence further demonstrates that the proposed $AggSLC$
halts after a finite number of iterations. We evaluate $AggSLC$ on different
crowdsourced datasets for Named Entity Recognition (NER) tasks and Information
Extraction tasks in biomedical (PICO), as well as a simulated dataset. Our
results show that the proposed method outperforms the state-of-the-art
aggregation methods. To achieve insights into the framework, we study the
effectiveness of $AggSLC$'s components through ablation studies.
- Abstract(参考訳): アノテーションの品質と量は、自然言語処理における重要な課題であるシーケンスラベリングの学習性能に肯定的な影響を及ぼす。
ドメインの専門家を雇ってコーパスに注釈をつけるのは非常にコストがかかる。
Amazon Mechanical Turk (AMT)のようなクラウドソーシングプラットフォームは、この目的のためにデプロイされている。
しかし、この方法で収集されたアノテーションは、群衆労働者の専門知識の欠如により、ヒューマンエラーを起こしやすい。
アノテーションアグリゲーションの既存の文献では、アノテーションは独立であり、複雑な依存関係を持つシーケンシャルなラベルアグリゲーションタスクを扱う際の課題に直面している。
課題を克服するために,作業者のアノテーションを逐次ラベリングタスクに使用して,真理ラベルを推定する最適化手法を提案する。
群集(aggslc$)からの逐次ラベルの集約手法は,逐次ラベル付けタスク,作業者の信頼性,高度な機械学習技術の特徴を共同で検討する。
アルゴリズムの収束に関する理論的解析により、提案された$AggSLC$は有限個の反復の後に停止することを示した。
バイオメディカル(PICO)における名前付きエンティティ認識(NER)タスクと情報抽出タスク、およびシミュレーションデータセットについて、さまざまなクラウドソースデータセットに対して$AggSLC$を評価する。
その結果,提案手法は最先端の集約手法よりも優れていることがわかった。
この枠組みに関する知見を得るために, アブレーション研究を通じて, $aggslc$ 成分の有効性について検討した。
関連論文リスト
- Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。
抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-19T03:51:10Z) - Drawing the Same Bounding Box Twice? Coping Noisy Annotations in Object
Detection with Repeated Labels [6.872072177648135]
そこで本研究では,基礎的真理推定手法に適合する新しい局所化アルゴリズムを提案する。
また,本アルゴリズムは,TexBiGデータセット上でのトレーニングにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-18T13:08:44Z) - IDAS: Intent Discovery with Abstractive Summarization [16.731183915325584]
目的発見における近年の競合手法は,抽象的な要約に基づく発話のクラスタリングによってより優れることを示す。
我々は、大規模言語モデルに促すことで、記述的発話ラベルの集合を収集するIDASアプローチに貢献する。
発話とそのノイズラベルは、凍結した事前訓練されたエンコーダによって符号化され、その後クラスタ化され、潜伏した意図を回復する。
論文 参考訳(メタデータ) (2023-05-31T12:19:40Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Multi-View Knowledge Distillation from Crowd Annotations for
Out-of-Domain Generalization [53.24606510691877]
本稿では,既存の手法による分布を集約することで,クラウドアノテーションからソフトラベルを取得する新しい手法を提案する。
これらのアグリゲーション手法は、ドメイン外テストセット上の4つのNLPタスクにおいて、最も一貫したパフォーマンスをもたらすことを実証する。
論文 参考訳(メタデータ) (2022-12-19T12:40:18Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Focusing on Potential Named Entities During Active Label Acquisition [0.0]
名前付きエンティティ認識(NER)は、構造化されていないテキスト中の名前付きエンティティの参照を識別することを目的としている。
多くのドメイン固有のNERアプリケーションは、まだかなりの量のラベル付きデータを要求する。
本稿では,長すぎるか短すぎる文をペナル化するための,データ駆動正規化手法を提案する。
論文 参考訳(メタデータ) (2021-11-06T09:04:16Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。