論文の概要: Extensive Error Analysis and a Learning-Based Evaluation of Medical
Entity Recognition Systems to Approximate User Experience
- arxiv url: http://arxiv.org/abs/2006.05281v1
- Date: Tue, 9 Jun 2020 14:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 13:34:08.746169
- Title: Extensive Error Analysis and a Learning-Based Evaluation of Medical
Entity Recognition Systems to Approximate User Experience
- Title(参考訳): ユーザ体験を近似する医療エンティティ認識システムの広範囲誤り解析と学習に基づく評価
- Authors: Isar Nejadgholi, Kathleen C. Fraser and Berry De Bruijn
- Abstract要約: 我々は、スパンミスマッチに注目し、その重大さが深刻なエラーから完全に許容されるエンティティ抽出まで様々であることを示す。
ドメイン固有のBERTベースのNERシステムでは、25%のエラーが同じラベルを持ち、ゴールドスタンダードエンティティと重複することを示した。
- 参考スコア(独自算出の注目度): 4.701557656625595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When comparing entities extracted by a medical entity recognition system with
gold standard annotations over a test set, two types of mismatches might occur,
label mismatch or span mismatch. Here we focus on span mismatch and show that
its severity can vary from a serious error to a fully acceptable entity
extraction due to the subjectivity of span annotations. For a domain-specific
BERT-based NER system, we showed that 25% of the errors have the same labels
and overlapping span with gold standard entities. We collected expert judgement
which shows more than 90% of these mismatches are accepted or partially
accepted by the user. Using the training set of the NER system, we built a fast
and lightweight entity classifier to approximate the user experience of such
mismatches through accepting or rejecting them. The decisions made by this
classifier are used to calculate a learning-based F-score which is shown to be
a better approximation of a forgiving user's experience than the relaxed
F-score. We demonstrated the results of applying the proposed evaluation metric
for a variety of deep learning medical entity recognition models trained with
two datasets.
- Abstract(参考訳): 医療機関認識システムによって抽出されたエンティティを、テストセット上でゴールドスタンダードアノテーションと比較すると、2種類のミスマッチが発生し、ラベルミスマッチまたはスパンミスマッチが発生する可能性がある。
ここでは、スパンミスマッチに注目し、スパンアノテーションの主観性により、その重症度が深刻なエラーから完全に許容されるエンティティ抽出に変化することを示す。
ドメイン固有のBERTベースのNERシステムでは、25%のエラーが同じラベルを持ち、ゴールドスタンダードエンティティと重複することを示した。
これらのミスマッチの90%以上がユーザによって受け入れられ、あるいは部分的に受け入れられていることを示す専門家の判断を収集した。
NERシステムのトレーニングセットを用いて、高速で軽量なエンティティ分類器を構築し、そのようなミスマッチのユーザエクスペリエンスを、それらを受け入れたり拒否したりすることで近似した。
この分類器によってなされる決定は、学習ベースのf-scoreを計算するために使用され、これは、リラックスしたf-scoreよりも、ユーザの経験を許すよりもよい近似であることが示されている。
2つのデータセットで学習した各種深層医療エンティティ認識モデルに対して,提案評価指標を適用した結果が得られた。
関連論文リスト
- ER2Score: LLM-based Explainable and Customizable Metric for Assessing Radiology Reports with Reward-Control Loss [39.542375803362965]
ER2Scoreは放射線学レポート生成(R2Gen)に特化して設計された自動評価指標である
ユーザが指定した基準に従ってレポートをスコアし、詳細なサブスコアを提供し、解釈可能性を高める。
実験では,ER2Scoreが人間の判断と高い相関性を示し,モデル選択における優れた性能を示した。
論文 参考訳(メタデータ) (2024-11-26T10:48:55Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - SELFOOD: Self-Supervised Out-Of-Distribution Detection via Learning to
Rank [25.250541856300067]
SELFOOD は自己監督型 OOD 検出法であり, 自己管理型 OOD 検出法である。
本手法は粗い設定ときめ細かい設定の両方に有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T04:01:27Z) - Learning from Multiple Expert Annotators for Enhancing Anomaly Detection
in Medical Image Analysis [0.31317409221921133]
医用画像解析において、複数の専門家アノテータは「地上の真実ラベル」に関する主観的な推定をしばしば生成する。
深層学習に基づく検知器の訓練のために,複数の放射線学の専門家によるアノテーションを組み合わせた簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-20T17:57:26Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z) - Single versus Multiple Annotation for Named Entity Recognition of
Mutations [4.213427823201119]
我々は,複数のアノテータが必要かどうかを測定するために,1つのアノテータ対2のアノテータによる影響について論じる。
単一アノテータを使用する場合のパフォーマンス損失を評価すると、第2のアノテーションのためにトレーニングデータをサンプルするために異なる方法を適用する。
保持されたダブルアノテートデータを使用して、異なるタイプのランキングを持つ2つのシナリオを構築します。
i)誤ったトレーニングインスタンスを識別する能力、(ii)最先端技術におけるミューテーションNERのパフォーマンスについて、両方のアプローチを評価する。
論文 参考訳(メタデータ) (2021-01-19T03:54:17Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - Matching the Clinical Reality: Accurate OCT-Based Diagnosis From Few
Labels [2.891413712995642]
ラベルのないデータはクリニックで多用されることが多く、半教師付き学習に基づく機械学習手法がこの設定に適している。
最近提案されたMixMatchアルゴリズムとFixMatchアルゴリズムは有用な表現を抽出する有望な結果を証明している。
いずれのアルゴリズムも、ラベル付きデータの全ての部分において、転送学習ベースラインを上回ります。
論文 参考訳(メタデータ) (2020-10-23T11:47:28Z) - Few-shot Learning for Multi-label Intent Detection [59.66787898744991]
State-of-the-art work estimates label-instancelevance scores and using threshold to select multiple associated intent labels。
2つのデータセットの実験により、提案モデルが1ショットと5ショットの両方の設定において強いベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2020-10-11T14:42:18Z) - Open-Set Recognition with Gaussian Mixture Variational Autoencoders [91.3247063132127]
推論において、オープンセット分類は、サンプルをトレーニングから既知のクラスに分類するか、未知のクラスとして拒絶するかのどちらかである。
我々は,協調的に再構築を学習し,潜在空間におけるクラスベースのクラスタリングを行うよう,我々のモデルを訓練する。
我々のモデルは、より正確で堅牢なオープンセット分類結果を実現し、平均的なF1改善率は29.5%である。
論文 参考訳(メタデータ) (2020-06-03T01:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。