論文の概要: Improving Named Entity Recognition in Telephone Conversations via
Effective Active Learning with Human in the Loop
- arxiv url: http://arxiv.org/abs/2211.01354v1
- Date: Wed, 2 Nov 2022 17:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 11:59:17.893929
- Title: Improving Named Entity Recognition in Telephone Conversations via
Effective Active Learning with Human in the Loop
- Title(参考訳): ループ内の人間による効果的なアクティブラーニングによる電話会話における名前付きエンティティ認識の改善
- Authors: Md Tahmid Rahman Laskar, Cheng Chen, Xue-Yong Fu, Shashi Bhushan TN
- Abstract要約: 我々は、ループ学習における人間を活用したアクティブラーニングフレームワークを提案し、アノテーション付きデータセットからデータサンプルを同定し、再アノテーションを行う。
データセット全体の6%のトレーニングインスタンスを再注釈することで、特定のエンティティタイプに対するF1スコアを約25%改善することができる。
- 参考スコア(独自算出の注目度): 2.1004132913758267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Telephone transcription data can be very noisy due to speech recognition
errors, disfluencies, etc. Not only that annotating such data is very
challenging for the annotators, but also such data may have lots of annotation
errors even after the annotation job is completed, resulting in a very poor
model performance. In this paper, we present an active learning framework that
leverages human in the loop learning to identify data samples from the
annotated dataset for re-annotation that are more likely to contain annotation
errors. In this way, we largely reduce the need for data re-annotation for the
whole dataset. We conduct extensive experiments with our proposed approach for
Named Entity Recognition and observe that by re-annotating only about 6%
training instances out of the whole dataset, the F1 score for a certain entity
type can be significantly improved by about 25%.
- Abstract(参考訳): 音声認識誤差や不一致などにより、電話の書き起こしデータは非常にうるさい。
このようなデータにアノテーションを付けることはアノテーションにとって非常に難しいだけでなく、アノテーションジョブが完了した後でも多くのアノテーションエラーが発生し、結果としてモデルのパフォーマンスが非常に低下する可能性がある。
本稿では,ループ内の人間を利用してアノテーション付きデータセットからデータサンプルを識別し,アノテーションエラーを含む可能性の高い再注釈を行うアクティブラーニングフレームワークを提案する。
このようにして、データセット全体のデータ再アノテーションの必要性を大幅に減らします。
提案手法を用いて広範囲に実験を行い,データセット全体から約6%のトレーニングインスタンスを再注釈することで,特定のエンティティタイプに対するF1スコアを約25%向上させることができることを示した。
関連論文リスト
- dopanim: A Dataset of Doppelganger Animals with Noisy Annotations from Multiple Humans [1.99197168821625]
本研究では,15種類の動物画像と地上の真理ラベルからなる新しいベンチマークデータセットであるdopanimを紹介した。
これらの画像のうち約10,500枚において、20人の人間が52,000点以上のアノテーションを提供し、精度は67%だった。
我々は、このデータセットの7つの変種を用いて、よく知られたマルチアノテーション学習アプローチをベンチマークし、ハードクラスラベルを超える学習やアクティブラーニングといったさらなる評価ユースケースについて概説する。
論文 参考訳(メタデータ) (2024-07-30T16:27:51Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Unmasking and Improving Data Credibility: A Study with Datasets for Training Harmless Language Models [25.893228797735908]
本研究は,Jigsaw Civil Comments, Anthropic Harmless & Red Team, PKU BeaverTails & SafeRLHFなど,現実世界のデータセットの信頼性に重点を置いている。
ヒトによるこれらのデータセットのクリーニングのコストと困難さを考慮して、データセットの信頼性を評価するための体系的な枠組みを導入する。
上記のベンチマークから構築した11のデータセットで、平均6.16%のラベルエラーを発見し、修正する。
論文 参考訳(メタデータ) (2023-11-19T02:34:12Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Combining Public Human Activity Recognition Datasets to Mitigate Labeled
Data Scarcity [1.274578243851308]
本稿では,一般公開されたデータセットと一般化されたHARモデルを学習するための新たな戦略を提案する。
我々の実験評価は、さまざまな最先端ニューラルネットワークアーキテクチャの実験を含むもので、公開データセットを組み合わせることで、ラベル付きサンプルの数を著しく削減できることを示している。
論文 参考訳(メタデータ) (2023-06-23T18:51:22Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Assisted Text Annotation Using Active Learning to Achieve High Quality
with Little Effort [9.379650501033465]
研究者は、手動の注釈だけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案する。
我々は、アクティブラーニング(AL)アプローチと事前訓練された言語モデルを組み合わせて、アノテーションカテゴリを半自動で識別する。
予備的な結果から,ALを用いることで,複雑なフレームや微妙なフレームを正しく分類するアノテーションの数が大幅に削減されることがわかった。
論文 参考訳(メタデータ) (2021-12-15T13:14:58Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。