論文の概要: Diagnosis extraction from unstructured Dutch echocardiogram reports using span- and document-level characteristic classification
- arxiv url: http://arxiv.org/abs/2408.06930v1
- Date: Tue, 13 Aug 2024 14:33:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 17:16:52.979095
- Title: Diagnosis extraction from unstructured Dutch echocardiogram reports using span- and document-level characteristic classification
- Title(参考訳): スパンおよび文書レベルの特徴分類を用いた非構造化オランダ心エコー図からの診断抽出
- Authors: Bauke Arends, Melle Vessies, Dirk van Osch, Arco Teske, Pim van der Harst, René van Es, Bram van Es,
- Abstract要約: 本研究は,非構造オランダ心エコー図による自動スパンレベル診断と文書レベル診断の有用性について検討した。
本研究では,重み付きおよびマクロF1スコア,精度,性能評価のためのリコールを用いて,スパンレベルと文書レベルの両方で自動ラベリング手法を開発し,試験した。
SpanCategorizerとMedRoBERTa.nlモデルは、他のすべてのスパンと文書分類器よりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical machine learning research and AI driven clinical decision support models rely on clinically accurate labels. Manually extracting these labels with the help of clinical specialists is often time-consuming and expensive. This study tests the feasibility of automatic span- and document-level diagnosis extraction from unstructured Dutch echocardiogram reports. We included 115,692 unstructured echocardiogram reports from the UMCU a large university hospital in the Netherlands. A randomly selected subset was manually annotated for the occurrence and severity of eleven commonly described cardiac characteristics. We developed and tested several automatic labelling techniques at both span and document levels, using weighted and macro F1-score, precision, and recall for performance evaluation. We compared the performance of span labelling against document labelling methods, which included both direct document classifiers and indirect document classifiers that rely on span classification results. The SpanCategorizer and MedRoBERTa.nl models outperformed all other span and document classifiers, respectively. The weighted F1-score varied between characteristics, ranging from 0.60 to 0.93 in SpanCategorizer and 0.96 to 0.98 in MedRoBERTa.nl. Direct document classification was superior to indirect document classification using span classifiers. SetFit achieved competitive document classification performance using only 10\% of the training data. Utilizing a reduced label set yielded near-perfect document classification results. We recommend using our published SpanCategorizer and MedRoBERTa.nl models for span- and document-level diagnosis extraction from Dutch echocardiography reports. For settings with limited training data, SetFit may be a promising alternative for document classification.
- Abstract(参考訳): 臨床機械学習研究とAIによる臨床決定支援モデルは、臨床的に正確なラベルに依存している。
臨床専門家の助けを借りてこれらのラベルを手作業で抽出することは、しばしば時間がかかり高価である。
本研究は,非構造オランダ心エコー図による自動スパンレベル診断と文書レベル診断の有用性について検討した。
オランダの大学病院UMCUの非構造心エコー図115,692例を報告する。
ランダムに選択したサブセットを手動でアノテートした。
本研究では,重み付きおよびマクロF1スコア,精度,性能評価のためのリコールを用いて,スパンレベルと文書レベルの両方で自動ラベリング手法を開発し,試験した。
本研究では,文書分類結果に依存する直接文書分類器と間接文書分類器の両方を含む文書分類法に対して,スパン分類の性能を比較した。
SpanCategorizerとMedRoBERTa.nlモデルは、他のすべてのスパンと文書分類器よりも優れていた。
重み付きF1スコアは、SpanCategorizerの0.60から0.93まで、MedRoBERTa.nlの0.96から0.98まで様々である。
直接文書分類はスパン分類器を用いた間接文書分類よりも優れている。
SetFitはトレーニングデータの10%しか使用せず、競争力のある文書分類性能を達成した。
ラベルセットの削減を利用すれば、ほぼ完璧な文書分類結果が得られる。
SpanCategorizer と MedRoBERTa.nl モデルを用いて,オランダの心エコーレポートからスパンレベルおよび文書レベルの診断を抽出することを推奨する。
限られたトレーニングデータを持つ設定の場合、SetFitはドキュメント分類の有望な代替になるかもしれない。
関連論文リスト
- Blueprinting the Future: Automatic Item Categorization using
Hierarchical Zero-Shot and Few-Shot Classifiers [6.907552533477328]
本研究では,ゼロショットおよび少数ショット生成事前学習変換器(GPT)を用いた階層的項目分類手法を提案する。
検査ブループリントの階層的な性質はシームレスにナビゲートされ、複数のレベルの項目を階層的に分類することができる。
人工データによる初期シミュレーションは、この方法の有効性を示し、F1スコアで測定された平均精度92.91%を達成する。
論文 参考訳(メタデータ) (2023-12-06T15:51:49Z) - Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing [53.797797404164946]
我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
論文 参考訳(メタデータ) (2023-05-23T08:38:33Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Statistical Dependency Guided Contrastive Learning for Multiple Labeling
in Prenatal Ultrasound [56.631021151764955]
標準平面認識は出生前超音波(US)スクリーニングにおいて重要な役割を担っている。
我々は,複数の標準平面と対応する解剖学的構造を同時に識別する,新しいマルチラベル学習手法を構築した。
論文 参考訳(メタデータ) (2021-08-11T06:39:26Z) - Detecting of a Patient's Condition From Clinical Narratives Using
Natural Language Representation [0.3149883354098941]
本稿では,臨床自然言語表現学習と教師付き分類フレームワークを提案する。
この新しいフレームワークは、文脈的臨床物語入力から分布構文と潜在意味論(表現学習)を共同で発見する。
提案手法では, 精度, 再現性, 精度をそれぞれ89 %, 88 %, 89 %とした総合分類性能が得られる。
論文 参考訳(メタデータ) (2021-04-08T17:16:04Z) - SCRIB: Set-classifier with Class-specific Risk Bounds for Blackbox
Models [48.374678491735665]
クラス固有RIsk境界(SCRIB)を用いたSet-classifierを導入し,この問題に対処する。
SCRIBは、クラス固有の予測リスクを理論的保証で制御するセット分類器を構築する。
脳波(EEG)データによる睡眠ステージング,X線COVID画像分類,心電図(ECG)データに基づく心房細動検出など,いくつかの医学的応用についてSCRIBを検証した。
論文 参考訳(メタデータ) (2021-03-05T21:06:12Z) - Medical Segment Coloring of Clinical Notes [0.0]
本稿では,icd-9カテゴリに対応する臨床ノートのセグメントを識別する深層学習に基づく手法を提案する。
提案された医療セグメントカラーラー(MSC)アーキテクチャは、単語分類、(2)フレーズ割り当て、(3)文書分類の3つの段階で動作するパイプラインフレームワークである。
論文 参考訳(メタデータ) (2021-01-26T09:49:37Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z) - Learning Image Labels On-the-fly for Training Robust Classification
Models [13.669654965671604]
ノイズの多いアノテーション(例えば、異なるアルゴリズムベースのラベル付け子から)を一緒に利用し、相互に分類タスクの学習に役立てることができるかを示す。
メタトレーニングベースのラベルサンプリングモジュールは、追加のバックプロパゲーションプロセスを通じてモデル学習の恩恵を受けるラベルに出席するように設計されている。
論文 参考訳(メタデータ) (2020-09-22T05:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。