論文の概要: Truth Discovery in Sequence Labels from Crowds
- arxiv url: http://arxiv.org/abs/2109.04470v1
- Date: Thu, 9 Sep 2021 19:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 04:32:27.218224
- Title: Truth Discovery in Sequence Labels from Crowds
- Title(参考訳): 群衆からのシーケンスラベルの真理発見
- Authors: Nasim Sabetpour, Adithya Kulkarni, Sihong Xie, Qi Li
- Abstract要約: 本稿では,労働者が提供したラベルを用いて,最適なアグリゲートアノテーションセットを推定する最適化手法を提案する。
その結果,提案手法は最先端のアグリゲーション手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 10.27302830362022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Annotations quality and quantity positively affect the performance of
sequence labeling, a vital task in Natural Language Processing. Hiring domain
experts to annotate a corpus set is very costly in terms of money and time.
Crowdsourcing platforms, such as Amazon Mechanical Turk (AMT), have been
deployed to assist in this purpose. However, these platforms are prone to human
errors due to the lack of expertise; hence, one worker's annotations cannot be
directly used to train the model. Existing literature in annotation aggregation
more focuses on binary or multi-choice problems. In recent years, handling the
sequential label aggregation tasks on imbalanced datasets with complex
dependencies between tokens has been challenging. To conquer the challenge, we
propose an optimization-based method that infers the best set of aggregated
annotations using labels provided by workers. The proposed Aggregation method
for Sequential Labels from Crowds ($AggSLC$) jointly considers the
characteristics of sequential labeling tasks, workers' reliabilities, and
advanced machine learning techniques. We evaluate $AggSLC$ on different
crowdsourced data for Named Entity Recognition (NER), Information Extraction
tasks in biomedical (PICO), and the simulated dataset. Our results show that
the proposed method outperforms the state-of-the-art aggregation methods. To
achieve insights into the framework, we study $AggSLC$ components'
effectiveness through ablation studies by evaluating our model in the absence
of the prediction module and inconsistency loss function. Theoretical analysis
of our algorithm's convergence points that the proposed $AggSLC$ halts after a
finite number of iterations.
- Abstract(参考訳): アノテーションの品質と量は、自然言語処理における重要なタスクであるシーケンスラベリングのパフォーマンスに肯定的な影響を及ぼす。
ドメインの専門家を雇ってコーパスセットに注釈をつけるのは非常にコストがかかる。
Amazon Mechanical Turk (AMT)のようなクラウドソーシングプラットフォームは、この目的のためにデプロイされている。
しかしながら、これらのプラットフォームは専門知識の欠如によりヒューマンエラーを起こしやすいため、モデルのトレーニングに1人のワーカーのアノテーションを直接使用することはできない。
アノテーションアグリゲーションにおける既存の文献は、バイナリ問題やマルチチョース問題に焦点を当てている。
近年、トークン間の複雑な依存関係を持つ不均衡データセット上でのシーケンシャルラベルアグリゲーションタスクの処理が課題となっている。
この課題を克服するために,労働者が提供したラベルを用いて最適なアノテーションセットを推定する最適化手法を提案する。
群集(aggslc$)からの逐次ラベルの集約手法は,逐次ラベル付けタスク,作業者の信頼性,高度な機械学習技術の特徴を共同で検討する。
我々は,様々なクラウドソースデータを用いて,名前付きエンティティ認識(ner),バイオメディカル情報抽出タスク(pico)およびシミュレーションデータセットに対する$aggslc$の評価を行った。
その結果,提案手法は最先端の集約手法よりも優れていることがわかった。
本研究では,予測モジュールや不整合損失関数が存在しない場合のモデルを評価することにより,AggSLC$コンポーネントの有効性をアブレーション研究により検証する。
提案する$aggslc$が有限個の反復の後に停止するというアルゴリズムの収束点の理論的解析。
関連論文リスト
- Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。
抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-19T03:51:10Z) - Drawing the Same Bounding Box Twice? Coping Noisy Annotations in Object
Detection with Repeated Labels [6.872072177648135]
そこで本研究では,基礎的真理推定手法に適合する新しい局所化アルゴリズムを提案する。
また,本アルゴリズムは,TexBiGデータセット上でのトレーニングにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-18T13:08:44Z) - IDAS: Intent Discovery with Abstractive Summarization [16.731183915325584]
目的発見における近年の競合手法は,抽象的な要約に基づく発話のクラスタリングによってより優れることを示す。
我々は、大規模言語モデルに促すことで、記述的発話ラベルの集合を収集するIDASアプローチに貢献する。
発話とそのノイズラベルは、凍結した事前訓練されたエンコーダによって符号化され、その後クラスタ化され、潜伏した意図を回復する。
論文 参考訳(メタデータ) (2023-05-31T12:19:40Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Multi-View Knowledge Distillation from Crowd Annotations for
Out-of-Domain Generalization [53.24606510691877]
本稿では,既存の手法による分布を集約することで,クラウドアノテーションからソフトラベルを取得する新しい手法を提案する。
これらのアグリゲーション手法は、ドメイン外テストセット上の4つのNLPタスクにおいて、最も一貫したパフォーマンスをもたらすことを実証する。
論文 参考訳(メタデータ) (2022-12-19T12:40:18Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Focusing on Potential Named Entities During Active Label Acquisition [0.0]
名前付きエンティティ認識(NER)は、構造化されていないテキスト中の名前付きエンティティの参照を識別することを目的としている。
多くのドメイン固有のNERアプリケーションは、まだかなりの量のラベル付きデータを要求する。
本稿では,長すぎるか短すぎる文をペナル化するための,データ駆動正規化手法を提案する。
論文 参考訳(メタデータ) (2021-11-06T09:04:16Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。