論文の概要: Weakly-supervised diagnosis identification from Italian discharge letters
- arxiv url: http://arxiv.org/abs/2410.15051v1
- Date: Sat, 19 Oct 2024 09:42:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:20:47.926843
- Title: Weakly-supervised diagnosis identification from Italian discharge letters
- Title(参考訳): イタリア語発声文字からの弱視的診断
- Authors: Vittorio Torri, Elisa Barbieri, Anna Cantarutti, Carlo Giaquinto, Francesca Ieva,
- Abstract要約: 本報告では, イタリアの退院状から病気を認識するための, 弱教師付きパイプラインを提案する。
私たちのパイプラインは、イタリアのUmbertoモデルの微調整バージョンをベースにしています。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Objective: Recognizing diseases from discharge letters is crucial for cohort selection and epidemiological analyses, as this is the only type of data consistently produced across hospitals. This is a classic document classification problem, typically requiring supervised learning. However, manual annotation of large datasets of discharge letters is uncommon since it is extremely time-consuming. We propose a novel weakly-supervised pipeline to recognize diseases from Italian discharge letters. Methods: Our Natural Language Processing pipeline is based on a fine-tuned version of the Italian Umberto model. The pipeline extracts diagnosis-related sentences from a subset of letters and applies a two-level clustering using the embeddings generated by the fine-tuned Umberto model. These clusters are summarized and those mapped to the diseases of interest are selected as weak labels. Finally, the same BERT-based model is trained using these weak labels to detect the targeted diseases. Results: A case study related to the identification of bronchiolitis with 33'176 Italian discharge letters from 44 hospitals in the Veneto Region shows the potential of our method, with an AUC of 77.7 % and an F1-Score of 75.1 % on manually annotated labels, improving compared to other non-supervised methods and with a limited loss compared to fully supervised methods. Results are robust to the cluster selection and the identified clusters highlight the potential to recognize a variety of diseases. Conclusions: This study demonstrates the feasibility of diagnosis identification from Italian discharge letters in the absence of labelled data. Our pipeline showed strong performance and robustness, and its flexibility allows for easy adaptation to various diseases. This approach offers a scalable solution for clinical text classification, reducing the need for manual annotation while maintaining good accuracy.
- Abstract(参考訳): 目的: 退院状からの疾患の認識は, 病院間で一貫して発生する唯一のデータであるコホート選択と疫学的分析に不可欠である。
これは古典的な文書分類の問題であり、典型的には教師あり学習を必要とする。
しかし, 非常に時間を要するため, 吐出文字の大規模なデータセットのマニュアルアノテーションは一般的ではない。
本報告では, イタリアの退院状から病気を認識するための, 弱教師付きパイプラインを提案する。
メソッド: 私たちの自然言語処理パイプラインは、イタリアのUmbertoモデルの微調整バージョンをベースにしています。
このパイプラインは、文字のサブセットから診断関連文を抽出し、微調整されたウンベルトモデルによって生成された埋め込みを用いて2レベルクラスタリングを適用する。
これらのクラスターを要約し、興味のある疾患にマッピングしたクラスターを弱いラベルとして選択する。
最後に、同じBERTベースのモデルが、これらの弱いラベルを使って、標的とする疾患を検出するように訓練されている。
結果: ベネト地区の44病院33'176件で気管支炎を同定した症例では, AUCが77.7 %, F1-Scoreが75.1 %であった。
結果はクラスタの選択に対して堅牢であり、特定されたクラスタは、さまざまな病気を認識する可能性を強調します。
結論: 本研究は, ラベル付きデータがない場合に, イタリア語の吐出文字からの診断が可能であることを示す。
パイプラインは高い性能と堅牢性を示し,その柔軟性により,様々な疾患への適応が容易になった。
このアプローチは、クリニカルテキスト分類のためのスケーラブルなソリューションを提供し、高い精度を維持しながら手動アノテーションの必要性を減らす。
関連論文リスト
- Improving Extraction of Clinical Event Contextual Properties from Electronic Health Records: A Comparative Study [2.0884301753594334]
本研究は,医学テキスト分類のための様々な自然言語モデルの比較分析を行う。
BERTはBi-LSTMモデルを最大28%、ベースラインのBERTモデルを最大16%上回り、マイノリティクラスをリコールする。
論文 参考訳(メタデータ) (2024-08-30T10:28:49Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - A Hybrid Framework with Large Language Models for Rare Disease Phenotyping [4.550497164299771]
希少な疾患は、その頻度が低く、異質な臨床的プレゼンテーションのため、診断と治療において重大な課題となる。
本研究では,辞書ベースの自然言語処理(NLP)ツールと大規模言語モデル(LLM)を組み合わせたハイブリッドアプローチを開発することを目的とする。
本稿では,Orphanet Rare Disease Ontology (ORDO) とUnified Medical Language System (UMLS) を統合した新たなハイブリッドフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-16T20:59:28Z) - CohortGPT: An Enhanced GPT for Participant Recruitment in Clinical Study [17.96401880059829]
ChatGPTのような大規模言語モデル(LLM)は、様々な下流タスクで大きな成功を収めています。
我々は,知識グラフを補助情報として,予測を行う際のLCMを導くことを提案する。
本手法は, 微調整手法と比較して, 良好な性能が得られる。
論文 参考訳(メタデータ) (2023-07-21T04:43:00Z) - WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic
Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。
第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文 参考訳(メタデータ) (2022-04-13T15:27:05Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Multi-class versus One-class classifier in spontaneous speech analysis
oriented to Alzheimer Disease diagnosis [58.720142291102135]
本研究の目的は,音声信号から抽出した新しいバイオマーカーを用いて自動解析を行うことにより,ADの早期診断と重症度評価の改善に寄与することである。
外付け器とフラクタル次元の機能に関する情報を使用することで、システムの性能が向上する。
論文 参考訳(メタデータ) (2022-03-21T09:57:20Z) - ACPL: Anti-curriculum Pseudo-labelling forSemi-supervised Medical Image
Classification [22.5935068122522]
我々は、反キュリキュラム擬似ラベリング(ACPL)と呼ばれる新しいSSLアルゴリズムを提案する。
ACPLは、情報のないサンプルを選択するための新しいテクニックを導入し、トレーニングバランスを改善し、マルチラベルとマルチクラスの両方でモデルが動作できるようにする。
本手法は, 従来のSOTA SSL方式よりも優れていた。
論文 参考訳(メタデータ) (2021-11-25T05:31:52Z) - Unsupervised Representation Learning Meets Pseudo-Label Supervised
Self-Distillation: A New Approach to Rare Disease Classification [26.864435224276964]
本稿では,2つの重要な新奇性を有するレア疾患分類への新しいハイブリッドアプローチを提案する。
まず、自己監督型コントラスト損失に基づく教師なし表現学習(URL)を採用する。
第二に、これらのURLを擬似ラベル管理分類と統合し、稀な疾患に関する知識を効果的に自己蒸留する。
論文 参考訳(メタデータ) (2021-10-09T12:56:09Z) - Label-Assemble: Leveraging Multiple Datasets with Partial Labels [68.46767639240564]
Label-Assemble”は、公開データセットのアセンブリから部分的なラベルの可能性を最大限に活用することを目的としている。
陰例からの学習は,コンピュータ支援型疾患の診断と検出の双方を促進することが判明した。
論文 参考訳(メタデータ) (2021-09-25T02:48:17Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。