論文の概要: Multi-domain Clinical Natural Language Processing with MedCAT: the
Medical Concept Annotation Toolkit
- arxiv url: http://arxiv.org/abs/2010.01165v2
- Date: Thu, 25 Mar 2021 13:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 00:13:42.522521
- Title: Multi-domain Clinical Natural Language Processing with MedCAT: the
Medical Concept Annotation Toolkit
- Title(参考訳): MedCATによる多分野臨床自然言語処理:医療概念アノテーションツールキット
- Authors: Zeljko Kraljevic, Thomas Searle, Anthony Shek, Lukasz Roguski, Kawsar
Noor, Daniel Bean, Aurelie Mascio, Leilei Zhu, Amos A Folarin, Angus Roberts,
Rebecca Bendayan, Mark P Richardson, Robert Stewart, Anoop D Shah, Wai Keong
Wong, Zina Ibrahim, James T Teo, Richard JB Dobson
- Abstract要約: オープンソースMedical Concept EHR Toolkit(MedMedCAT)について紹介する。
UMLS/SNOMED-CTを含む任意の概念語彙を用いて概念を抽出するための、新しい自己教師型機械学習アルゴリズムを提供する。
オープンデータセットからUMLS概念を抽出する際の性能改善を示す。
SNOMED-CTの実際の検証は、ロンドンの3大病院で、17万件の臨床記録から8.8Bワード以上の自己監督訓練が実施されている。
- 参考スコア(独自算出の注目度): 5.49956798378633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electronic health records (EHR) contain large volumes of unstructured text,
requiring the application of Information Extraction (IE) technologies to enable
clinical analysis. We present the open-source Medical Concept Annotation
Toolkit (MedCAT) that provides: a) a novel self-supervised machine learning
algorithm for extracting concepts using any concept vocabulary including
UMLS/SNOMED-CT; b) a feature-rich annotation interface for customising and
training IE models; and c) integrations to the broader CogStack ecosystem for
vendor-agnostic health system deployment. We show improved performance in
extracting UMLS concepts from open datasets (F1:0.448-0.738 vs 0.429-0.650).
Further real-world validation demonstrates SNOMED-CT extraction at 3 large
London hospitals with self-supervised training over ~8.8B words from ~17M
clinical records and further fine-tuning with ~6K clinician annotated examples.
We show strong transferability (F1 > 0.94) between hospitals, datasets, and
concept types indicating cross-domain EHR-agnostic utility for accelerated
clinical and research use cases.
- Abstract(参考訳): 電子健康記録(EHR)には大量の非構造化テキストが含まれており、臨床分析を可能にするために情報抽出(IE)技術を適用する必要がある。
オープンソースMedCAT(Messical Concept Annotation Toolkit)を紹介します。
a) umls/snomed-ctを含む概念語彙を用いた概念抽出のための新しい自己教師付き機械学習アルゴリズム
b)ieモデルをカスタマイズし、訓練するための機能豊富なアノテーションインターフェース
c) ベンダーに依存しないヘルスシステムデプロイメントのための、より広範なCogStackエコシステムとの統合。
オープンデータセット(F1:0.448-0.738対0.429-0.650)からUMLS概念を抽出する際の性能向上を示す。
さらに現実の検証では、SNOMED-CTの抽出がロンドンの3大病院で行われ、約8.8Bの自己指導による訓練が17万件の臨床記録から行われ、さらに6万件の臨床医の注記例による微調整が行われている。
病院, データセット, 概念タイプ間では, 臨床・研究の迅速化のために, クロスドメインEHR非依存ユーティリティを示す強い伝達性(F1 > 0.94)を示す。
関連論文リスト
- Document-level Clinical Entity and Relation Extraction via Knowledge Base-Guided Generation [0.869967783513041]
統一医療言語システム(UMLS)の知識ベースを利用して医療概念を正確に識別する。
本フレームワークは、テキストに関連するUMLS概念を選択し、エンティティを抽出する際の言語モデルガイドのプロンプトと組み合わせる。
論文 参考訳(メタデータ) (2024-07-13T22:45:46Z) - GAMedX: Generative AI-based Medical Entity Data Extractor Using Large Language Models [1.123722364748134]
本稿では,Large Language Models(LLMs)を利用した名前付きエンティティ認識(NER)アプローチであるGAMedXを紹介する。
この方法論は、NERのためのオープンソースのLCMを統合し、特殊な医学用語の複雑さをナビゲートするために、連鎖プロンプトとピダンティックスキーマを構造化出力に利用している。
その結果, 評価データセットの1つに対して, 98%の精度でROUGE F1の有意なスコアが得られた。
論文 参考訳(メタデータ) (2024-05-31T02:53:22Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - ClinLinker: Medical Entity Linking of Clinical Concept Mentions in Spanish [39.81302995670643]
本研究は、医療エンティティリンクのための2相パイプラインを用いた新しいアプローチであるClinLinkerを提示する。
SapBERTベースのバイエンコーダに基づいており、その後クロスエンコーダで再ランクされ、スペインの医療概念に合わせた対照的な学習戦略に従って訓練されている。
論文 参考訳(メタデータ) (2024-04-09T15:04:27Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - A Multimodal Transformer: Fusing Clinical Notes with Structured EHR Data
for Interpretable In-Hospital Mortality Prediction [8.625186194860696]
臨床ノートと構造化HRデータを融合し,院内死亡率の予測に役立てる新しいマルチモーダルトランスフォーマーを提案する。
そこで本研究では,臨床ノートにおいて重要な単語を選択するための統合的勾配(IG)手法を提案する。
また,臨床 BERT における領域適応型事前訓練とタスク適応型微調整の重要性についても検討した。
論文 参考訳(メタデータ) (2022-08-09T03:49:52Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Unifying Heterogenous Electronic Health Records Systems via Text-Based
Code Embedding [7.3394352452936085]
EHRのためのコードに依存しない表現学習フレームワークであるDescription-based Embedding,DescEmbを紹介する。
DescEmbは、それぞれのイベントを直接専用の埋め込みにマッピングするのではなく、テキストのデクリプションを使用して臨床イベントを埋め込むニューラルネットワーク理解モデルの柔軟性を活用する。
論文 参考訳(メタデータ) (2021-11-12T20:27:55Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。