論文の概要: ClinLinker: Medical Entity Linking of Clinical Concept Mentions in Spanish
- arxiv url: http://arxiv.org/abs/2404.06367v1
- Date: Tue, 9 Apr 2024 15:04:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 14:21:03.548226
- Title: ClinLinker: Medical Entity Linking of Clinical Concept Mentions in Spanish
- Title(参考訳): ClinLinker: スペインにおける臨床概念の医療エンティティリンク
- Authors: Fernando Gallego, Guillermo López-García, Luis Gasco-Sánchez, Martin Krallinger, Francisco J. Veredas,
- Abstract要約: 本研究は、医療エンティティリンクのための2相パイプラインを用いた新しいアプローチであるClinLinkerを提示する。
SapBERTベースのバイエンコーダに基づいており、その後クロスエンコーダで再ランクされ、スペインの医療概念に合わせた対照的な学習戦略に従って訓練されている。
- 参考スコア(独自算出の注目度): 39.81302995670643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in natural language processing techniques, such as named entity recognition and normalization to widely used standardized terminologies like UMLS or SNOMED-CT, along with the digitalization of electronic health records, have significantly advanced clinical text analysis. This study presents ClinLinker, a novel approach employing a two-phase pipeline for medical entity linking that leverages the potential of in-domain adapted language models for biomedical text mining: initial candidate retrieval using a SapBERT-based bi-encoder and subsequent re-ranking with a cross-encoder, trained by following a contrastive-learning strategy to be tailored to medical concepts in Spanish. This methodology, focused initially on content in Spanish, substantially outperforming multilingual language models designed for the same purpose. This is true even for complex scenarios involving heterogeneous medical terminologies and being trained on a subset of the original data. Our results, evaluated using top-k accuracy at 25 and other top-k metrics, demonstrate our approach's performance on two distinct clinical entity linking Gold Standard corpora, DisTEMIST (diseases) and MedProcNER (clinical procedures), outperforming previous benchmarks by 40 points in DisTEMIST and 43 points in MedProcNER, both normalized to SNOMED-CT codes. These findings highlight our approach's ability to address language-specific nuances and set a new benchmark in entity linking, offering a potent tool for enhancing the utility of digital medical records. The resulting system is of practical value, both for large scale automatic generation of structured data derived from clinical records, as well as for exhaustive extraction and harmonization of predefined clinical variables of interest.
- Abstract(参考訳): UMLS や SNOMED-CT のような広く使われている標準用語への名前付きエンティティ認識や正規化などの自然言語処理技術の進歩は、電子健康記録のデジタル化とともに、かなり進んだ臨床テキスト分析をもたらした。
本研究では,SapBERTベースのバイエンコーダを用いた初期候補検索と,それに続くクロスエンコーダを用いた再ランク付けを行い,スペインにおける医学的概念に適合する対照的な学習戦略に従って学習する,医療エンティティリンクのための2段階パイプラインを用いた新しいアプローチであるClinLinkerを提案する。
この方法論は、最初はスペイン語のコンテンツに焦点を合わせ、同じ目的のために設計された多言語言語モデルを大幅に上回った。
これは、異種医療用語を伴い、元のデータのサブセットで訓練される複雑なシナリオにも当てはまる。
以上の結果から,Gold Standard corpora, DisTEMIST (diseases) および MedProcNER (clinical procedure) をリンクする2つの異なる臨床組織において, 従来のベンチマークではdisTEMIST が40点, MedProcNER が43点, SNOMED-CT が正常化した。
これらの知見は、我々のアプローチが言語固有のニュアンスに対処する能力を強調し、エンティティリンクの新しいベンチマークを設定し、デジタル医療記録の有用性を高める強力なツールを提供する。
得られたシステムは,臨床記録から得られた構造化データの大規模自動生成と,予め定義された臨床変数の抜本的抽出と調和のための実用的価値である。
関連論文リスト
- SNOBERT: A Benchmark for clinical notes entity linking in the SNOMED CT clinical terminology [43.89160296332471]
本稿では,BERT モデルを用いた SNOMED CT のテキストスパンと特定の概念をリンクする手法を提案する。
本手法は, 候補選択と候補マッチングの2段階からなる。これらのモデルは, ラベル付き臨床ノートの公開データセットの中で, 最大規模で訓練された。
論文 参考訳(メタデータ) (2024-05-25T08:00:44Z) - Efficient Biomedical Entity Linking: Clinical Text Standardization with Low-Resource Techniques [0.0]
複数の用語は、臨床エンティティと呼ばれることができる同じコア概念を参照することができる。
UMLS(Unified Medical Language System)のようなオントロジーは、何百万もの臨床エンティティを格納するために開発・維持されている。
そこで本稿では,エンティティの曖昧さを解消するために,コンテキストベースとコンテキストレスの省力化手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T01:14:33Z) - sEHR-CE: Language modelling of structured EHR data for efficient and
generalizable patient cohort expansion [0.0]
sEHR-CEは、異種臨床データセットの統合表現型化と分析を可能にするトランスフォーマーに基づく新しいフレームワークである。
大規模研究である英国バイオバンクのプライマリ・セカンダリ・ケアデータを用いてアプローチを検証する。
論文 参考訳(メタデータ) (2022-11-30T16:00:43Z) - Developing a general-purpose clinical language inference model from a
large corpus of clinical notes [0.30586855806896046]
カリフォルニア大学サンフランシスコ校(UCSF)で著述された7500万の同定された臨床記録を多種多様な同定コーパスを用いて,BERTモデルからBi Domain Decoderを訓練した。
本モデルは,UCSFデータを用いた2つのタスクのシステム内評価において,これらのモデルと同等の大きさのバイオメディカル言語モデルと同等の性能を発揮した。
論文 参考訳(メタデータ) (2022-10-12T20:08:45Z) - Cross-Lingual Knowledge Transfer for Clinical Phenotyping [55.92262310716537]
本稿では,英語を使わないクリニックに対して,このタスクを実行するための言語間知識伝達戦略について検討する。
ギリシャ語とスペイン語のクリニックに対して,異なる臨床領域のクリニカルノートを活用して,これらの戦略を評価する。
以上の結果から,多言語データを用いることで,臨床表現型モデルが改善され,データの疎度を補うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-08-03T08:33:21Z) - Biomedical and Clinical Language Models for Spanish: On the Benefits of
Domain-Specific Pretraining in a Mid-Resource Scenario [0.05277024349608833]
本研究は, 異なる事前学習選択を実験することにより, スペイン語の生物医学的, 臨床的言語モデルを示す。
モデルをスクラッチからトレーニングするための十分な臨床データがないため,混合ドメイン事前訓練法とクロスドメイン移行法を適用し,優れたバイオクリニカルモデルを構築した。
論文 参考訳(メタデータ) (2021-09-08T12:12:07Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual
Embeddings Using the Unified Medical Language System Metathesaurus [73.86656026386038]
事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介する。
これらの2つの戦略を適用することで、UmlsBERTは、臨床領域の知識を単語埋め込みにエンコードし、既存のドメイン固有モデルより優れている。
論文 参考訳(メタデータ) (2020-10-20T15:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。