論文の概要: Cost-Quality Adaptive Active Learning for Chinese Clinical Named Entity
Recognition
- arxiv url: http://arxiv.org/abs/2008.12548v1
- Date: Fri, 28 Aug 2020 09:27:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 02:05:26.502143
- Title: Cost-Quality Adaptive Active Learning for Chinese Clinical Named Entity
Recognition
- Title(参考訳): 中国における臨床名前認識のためのコスト品質適応型能動学習
- Authors: Tingting Cai, Yangming Zhou, Hong Zheng
- Abstract要約: 中国のEHRにおけるCNERに対するCQAAL(Cost-Quality Adaptive Active Learning)アプローチを提案する。
CQAALは、コスト効率の良いインスタンスラベルペアを選択し、より低いコストでより優れたアノテーション品質を適応的に達成する。
- 参考スコア(独自算出の注目度): 4.227856561940623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clinical Named Entity Recognition (CNER) aims to automatically identity
clinical terminologies in Electronic Health Records (EHRs), which is a
fundamental and crucial step for clinical research. To train a high-performance
model for CNER, it usually requires a large number of EHRs with high-quality
labels. However, labeling EHRs, especially Chinese EHRs, is time-consuming and
expensive. One effective solution to this is active learning, where a model
asks labelers to annotate data which the model is uncertain of. Conventional
active learning assumes a single labeler that always replies noiseless answers
to queried labels. However, in real settings, multiple labelers provide diverse
quality of annotation with varied costs and labelers with low overall
annotation quality can still assign correct labels for some specific instances.
In this paper, we propose a Cost-Quality Adaptive Active Learning (CQAAL)
approach for CNER in Chinese EHRs, which maintains a balance between the
annotation quality, labeling costs, and the informativeness of selected
instances. Specifically, CQAAL selects cost-effective instance-labeler pairs to
achieve better annotation quality with lower costs in an adaptive manner.
Computational results on the CCKS-2017 Task 2 benchmark dataset demonstrate the
superiority and effectiveness of the proposed CQAAL.
- Abstract(参考訳): 臨床名義認識(CNER)は、臨床研究の基本的かつ重要なステップである電子健康記録(EHR)における臨床用語の自動識別を目的としている。
CNERの高性能モデルをトレーニングするには、通常、高品質なラベルを持つ多数のEHRが必要である。
しかし、EHR、特に中国のEHRのラベル付けには時間と費用がかかる。
これに対する効果的な解決策の1つはアクティブラーニングであり、モデルが不確実なデータにアノテートするようラベルを付ける。
従来のアクティブラーニングでは、クエリされたラベルに対して常にノイズのない回答を返信する単一のラベルを前提としている。
しかし、実際の設定では、複数のラベルは様々なコストで様々なアノテーションの質を提供し、全体のアノテーション品質の低いラベルは、特定のインスタンスに対して正しいラベルを割り当てることができます。
本稿では,中国ehrsにおけるcnerのためのコスト品質適応型アクティブラーニング(cqaal)手法を提案する。
具体的には、CQAALはコスト効率の良いインスタンスラベルペアを選択し、より低いコストでより優れたアノテーション品質を適応的に達成する。
CCKS-2017 Task 2ベンチマークデータセットの計算結果は、提案されたCQAALの優位性と有効性を示している。
関連論文リスト
- Quality Sentinel: Estimating Label Quality and Errors in Medical Segmentation Datasets [11.134987228105162]
医用セグメンテーションデータセットのマニュアルアノテーションと比較してラベル品質を推定するための回帰モデルであるQuality Sentinelを導入する。
この回帰モデルは、私たちが開発した400万以上の画像ラベルペアでトレーニングされました。
われわれの品質センサーは、142のボディ構造のラベル品質を予測できる。
論文 参考訳(メタデータ) (2024-06-01T07:03:15Z) - Improved Adaptive Algorithm for Scalable Active Learning with Weak
Labeler [89.27610526884496]
Weak Labeler Active Cover (WL-AC)は、要求される精度を維持しながら、クエリの複雑さを低減するために、低品質の弱いラベルを堅牢に活用することができる。
受動学習と同一の精度を維持しつつラベル数を著しく削減し, 劣化したMNISTデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2022-11-04T02:52:54Z) - Eliciting and Learning with Soft Labels from Every Annotator [31.10635260890126]
個々のアノテータからソフトラベルを効率よく抽出することに注力する。
ラベルによる学習は,従来の手法と同等のモデル性能を達成できることを実証する。
論文 参考訳(メタデータ) (2022-07-02T12:03:00Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Active label cleaning: Improving dataset quality under resource
constraints [13.716577886649018]
ラベルノイズとして知られるデータアノテーションの欠陥は、機械学習モデルのトレーニングに有害である。
この研究は、再アノテーションのためのサンプルを優先順位付けするためのデータ駆動アプローチを提唱する。
評価されたラベルの正しさと各サンプルのラベル付け難易度に応じて格付けを行い,再現性を評価するためのシミュレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2021-09-01T19:03:57Z) - Rethinking Pseudo Labels for Semi-Supervised Object Detection [84.697097472401]
物体検出に適した確実な擬似ラベルを導入する。
我々は,クラス不均衡問題を緩和するために,各カテゴリの擬似ラベルと再重み付き損失関数を生成するために使用する閾値を動的に調整する。
提案手法では,COCOのラベル付きデータのみを用いて,教師付きベースラインを最大10%改善する。
論文 参考訳(メタデータ) (2021-06-01T01:32:03Z) - Cost-Accuracy Aware Adaptive Labeling for Active Learning [9.761953860259942]
多くの実環境において、異なるラベルには異なるラベルのコストがあり、異なるラベルの精度が得られる。
本稿では, インスタンス, ラベル付け者と対応するコストを選択し, ラベル付け精度を向上するための新しいアルゴリズムを提案する。
提案アルゴリズムは,5つのUCIおよび実際のクラウドソーシングデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-05-24T17:21:00Z) - Active learning for medical code assignment [55.99831806138029]
臨床領域における多ラベルテキスト分類におけるアクティブラーニング(AL)の有効性を示す。
MIMIC-IIIデータセットにICD-9コードを自動的に割り当てるために、よく知られたALメソッドのセットを適用します。
その結果、有益なインスタンスの選択は、大幅に減少したトレーニングセットで満足のいく分類を提供する。
論文 参考訳(メタデータ) (2021-04-12T18:11:17Z) - Semi-Supervised Speech Recognition via Graph-based Temporal
Classification [59.58318952000571]
半教師付き学習は自己学習による自動音声認識において有望な結果を示した。
このアプローチの有効性は、主に擬似ラベルの精度に依存する。
N-bestリストの別のASR仮説は、ラベルなしの発話に対してより正確なラベルを提供することができる。
論文 参考訳(メタデータ) (2020-10-29T14:56:56Z) - Active Learning for Noisy Data Streams Using Weak and Strong Labelers [3.9370369973510746]
我々は、人間のラベリング能力に触発された、新しい弱くて強力なラベリング問題を考える。
そこで本研究では,フィルタリング,多様性の追加,情報的サンプル選択,ラベル抽出の4段階からなるオンライン能動学習アルゴリズムを提案する。
我々は,個々のサンプルの情報とモデル信頼度を組み合わせることで,情報ゲインを測定する決定関数を導出する。
論文 参考訳(メタデータ) (2020-10-27T09:18:35Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。