論文の概要: Multilingual Clinical NER for Diseases and Medications Recognition in Cardiology Texts using BERT Embeddings
- arxiv url: http://arxiv.org/abs/2510.17437v1
- Date: Mon, 20 Oct 2025 11:26:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.041362
- Title: Multilingual Clinical NER for Diseases and Medications Recognition in Cardiology Texts using BERT Embeddings
- Title(参考訳): BERT埋め込みを用いた多言語臨床NERと医学的診断
- Authors: Manuela Daniela Danu, George Marica, Constantin Suciu, Lucian Mihai Itu, Oladimeji Farri,
- Abstract要約: 本研究は、英語、スペイン語、イタリア語で書かれた臨床症例報告から、疾患や薬剤の言及を抽出するための単言語モデルと多言語BERTモデルの有効性について検討する。
SDRは77.88%,SMRは92.09%,EMRは91.74%,IMRは88.9%であった。
- 参考スコア(独自算出の注目度): 1.84859707212729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapidly increasing volume of electronic health record (EHR) data underscores a pressing need to unlock biomedical knowledge from unstructured clinical texts to support advancements in data-driven clinical systems, including patient diagnosis, disease progression monitoring, treatment effects assessment, prediction of future clinical events, etc. While contextualized language models have demonstrated impressive performance improvements for named entity recognition (NER) systems in English corpora, there remains a scarcity of research focused on clinical texts in low-resource languages. To bridge this gap, our study aims to develop multiple deep contextual embedding models to enhance clinical NER in the cardiology domain, as part of the BioASQ MultiCardioNER shared task. We explore the effectiveness of different monolingual and multilingual BERT-based models, trained on general domain text, for extracting disease and medication mentions from clinical case reports written in English, Spanish, and Italian. We achieved an F1-score of 77.88% on Spanish Diseases Recognition (SDR), 92.09% on Spanish Medications Recognition (SMR), 91.74% on English Medications Recognition (EMR), and 88.9% on Italian Medications Recognition (IMR). These results outperform the mean and median F1 scores in the test leaderboard across all subtasks, with the mean/median values being: 69.61%/75.66% for SDR, 81.22%/90.18% for SMR, 89.2%/88.96% for EMR, and 82.8%/87.76% for IMR.
- Abstract(参考訳): 電子健康記録(EHR)データの増加は、患者の診断、疾患の進行監視、治療効果の評価、将来の臨床イベントの予測など、データ駆動型臨床システムの進歩を支援するために、構造化されていない臨床文献から生体医学的知識を開放する必要性を浮き彫りにしている。
文脈化された言語モデルでは、英語コーパスにおける名前付きエンティティ認識(NER)システムの性能改善が目覚ましいが、低リソース言語における臨床テキストに焦点を当てた研究はほとんどない。
このギャップを埋めるため、BioASQ MultiCardioNER共有タスクの一環として、心臓領域における臨床NERを高めるために、複数の深いコンテキスト埋め込みモデルを開発することを目的としている。
本研究は、英語、スペイン語、イタリア語で書かれた臨床症例報告から、疾患や薬剤の言及を抽出するために、一般的なドメインテキストに基づいて訓練された単言語および多言語BERTモデルの有効性について検討する。
F1スコアはスペイン疾患認識(SDR)77.88%,スペイン医学認識(SMR)92.09%,英語医学認識(EMR)91.74%,イタリア医学認識(IMR)88.9%であった。
これらの結果は、すべてのサブタスクでテストリーダーボードの平均値と中央値のスコアを上回り、平均/中間値が69.61%/75.66%、SMRが81.22%/90.18%、EMRが89.2%/88.96%、IMRが82.8%/87.76%である。
関連論文リスト
- Natural Language Processing for Electronic Health Records in Scandinavian Languages: Norwegian, Swedish, and Danish [7.7320970512851614]
この研究は、スカンジナビア本土の臨床テキストに対する最先端のNLP法の評価と分析を体系的に行うことを目的としている。
113記事のうち、18%がノルウェーの臨床的テキストに焦点を当て、64%(n=72)がスウェーデン語、10%(n=11)がデンマーク語、8%(n=9)が複数の言語に焦点を当てている。
論文 参考訳(メタデータ) (2025-03-24T10:47:32Z) - ISPO: An Integrated Ontology of Symptom Phenotypes for Semantic Integration of Traditional Chinese Medical Data [24.36545694430613]
本研究は,中国EMRのデータマイニングとTCM分野における実世界研究を支援するために,ISPOの統合オントロジーを構築することを目的とした。
論文 参考訳(メタデータ) (2024-07-08T15:23:50Z) - Performant ASR Models for Medical Entities in Accented Speech [0.9346027495459037]
我々は、93のアフリカアクセントの英語臨床データセットを用いて、複数のASRモデルを厳格に評価した。
分析の結果, 単語誤り率 (WER) が低いモデルではあるものの, 臨床的実体の誤差は高く, 患者の安全性に重大なリスクが生じる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-18T08:19:48Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Extraction of Medication and Temporal Relation from Clinical Text using
Neural Language Models [7.698164945017469]
textbfMedTemプロジェクトは、BiLSTM-CRFやCNN-BiLSTMなどの先進的な学習構造を使用している。
CNN-BiLSTMは、i2b2-2009 臨床 NER タスクにおいて、精度、リコール、F1 スコアに対して 75.67, 77.83, 78.17 の BiLSTM-CRF モデルにわずかに勝っている。
BERT-CNNモデルは、マクロAvgを使用してP/R/F1の64.48、67.17、65.03の評価スコアも生成した。
論文 参考訳(メタデータ) (2023-10-03T17:37:22Z) - Cross-Lingual Knowledge Transfer for Clinical Phenotyping [55.92262310716537]
本稿では,英語を使わないクリニックに対して,このタスクを実行するための言語間知識伝達戦略について検討する。
ギリシャ語とスペイン語のクリニックに対して,異なる臨床領域のクリニカルノートを活用して,これらの戦略を評価する。
以上の結果から,多言語データを用いることで,臨床表現型モデルが改善され,データの疎度を補うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-08-03T08:33:21Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Identification of Ischemic Heart Disease by using machine learning
technique based on parameters measuring Heart Rate Variability [50.591267188664666]
本研究は,243名の非侵襲的特徴(年齢,性別,左室容積率,HRV15)を用いて,一連のANNの訓練と評価を行った。
最高の結果は、7つの入力パラメータと7つの隠れノードを使用して、トレーニングと検証データセットに対して98.9%と82%の精度で得られた。
論文 参考訳(メタデータ) (2020-10-29T19:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。