論文の概要: Multi-domain Clinical Natural Language Processing with MedCAT: the
Medical Concept Annotation Toolkit
- arxiv url: http://arxiv.org/abs/2010.01165v2
- Date: Thu, 25 Mar 2021 13:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 00:13:42.522521
- Title: Multi-domain Clinical Natural Language Processing with MedCAT: the
Medical Concept Annotation Toolkit
- Title(参考訳): MedCATによる多分野臨床自然言語処理:医療概念アノテーションツールキット
- Authors: Zeljko Kraljevic, Thomas Searle, Anthony Shek, Lukasz Roguski, Kawsar
Noor, Daniel Bean, Aurelie Mascio, Leilei Zhu, Amos A Folarin, Angus Roberts,
Rebecca Bendayan, Mark P Richardson, Robert Stewart, Anoop D Shah, Wai Keong
Wong, Zina Ibrahim, James T Teo, Richard JB Dobson
- Abstract要約: オープンソースMedical Concept EHR Toolkit(MedMedCAT)について紹介する。
UMLS/SNOMED-CTを含む任意の概念語彙を用いて概念を抽出するための、新しい自己教師型機械学習アルゴリズムを提供する。
オープンデータセットからUMLS概念を抽出する際の性能改善を示す。
SNOMED-CTの実際の検証は、ロンドンの3大病院で、17万件の臨床記録から8.8Bワード以上の自己監督訓練が実施されている。
- 参考スコア(独自算出の注目度): 5.49956798378633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electronic health records (EHR) contain large volumes of unstructured text,
requiring the application of Information Extraction (IE) technologies to enable
clinical analysis. We present the open-source Medical Concept Annotation
Toolkit (MedCAT) that provides: a) a novel self-supervised machine learning
algorithm for extracting concepts using any concept vocabulary including
UMLS/SNOMED-CT; b) a feature-rich annotation interface for customising and
training IE models; and c) integrations to the broader CogStack ecosystem for
vendor-agnostic health system deployment. We show improved performance in
extracting UMLS concepts from open datasets (F1:0.448-0.738 vs 0.429-0.650).
Further real-world validation demonstrates SNOMED-CT extraction at 3 large
London hospitals with self-supervised training over ~8.8B words from ~17M
clinical records and further fine-tuning with ~6K clinician annotated examples.
We show strong transferability (F1 > 0.94) between hospitals, datasets, and
concept types indicating cross-domain EHR-agnostic utility for accelerated
clinical and research use cases.
- Abstract(参考訳): 電子健康記録(EHR)には大量の非構造化テキストが含まれており、臨床分析を可能にするために情報抽出(IE)技術を適用する必要がある。
オープンソースMedCAT(Messical Concept Annotation Toolkit)を紹介します。
a) umls/snomed-ctを含む概念語彙を用いた概念抽出のための新しい自己教師付き機械学習アルゴリズム
b)ieモデルをカスタマイズし、訓練するための機能豊富なアノテーションインターフェース
c) ベンダーに依存しないヘルスシステムデプロイメントのための、より広範なCogStackエコシステムとの統合。
オープンデータセット(F1:0.448-0.738対0.429-0.650)からUMLS概念を抽出する際の性能向上を示す。
さらに現実の検証では、SNOMED-CTの抽出がロンドンの3大病院で行われ、約8.8Bの自己指導による訓練が17万件の臨床記録から行われ、さらに6万件の臨床医の注記例による微調整が行われている。
病院, データセット, 概念タイプ間では, 臨床・研究の迅速化のために, クロスドメインEHR非依存ユーティリティを示す強い伝達性(F1 > 0.94)を示す。
関連論文リスト
- Towards Unifying Anatomy Segmentation: Automated Generation of a
Full-body CT Dataset via Knowledge Aggregation and Anatomical Guidelines [113.08940153125616]
我々は533巻のボクセルレベルのラベルを142ドル(約1万2000円)で、全身CTスキャンのデータセットを作成し、解剖学的包括的カバレッジを提供する。
提案手法はラベル集約段階において手作業によるアノテーションに依存しない。
我々はCTデータに142ドルの解剖学的構造を予測できる統一解剖学的セグメンテーションモデルをリリースする。
論文 参考訳(メタデータ) (2023-07-25T09:48:13Z) - Learnable Weight Initialization for Volumetric Medical Image
Segmentation [54.1807206010136]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - A Multimodal Transformer: Fusing Clinical Notes with Structured EHR Data
for Interpretable In-Hospital Mortality Prediction [8.625186194860696]
臨床ノートと構造化HRデータを融合し,院内死亡率の予測に役立てる新しいマルチモーダルトランスフォーマーを提案する。
そこで本研究では,臨床ノートにおいて重要な単語を選択するための統合的勾配(IG)手法を提案する。
また,臨床 BERT における領域適応型事前訓練とタスク適応型微調整の重要性についても検討した。
論文 参考訳(メタデータ) (2022-08-09T03:49:52Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - A Unified Framework of Medical Information Annotation and Extraction for
Chinese Clinical Text [1.4841452489515765]
現在の最先端(SOTA)NLPモデルは、ディープラーニング技術と高度に統合されている。
本研究では,医学的実体認識,関係抽出,属性抽出の工学的枠組みを提案する。
論文 参考訳(メタデータ) (2022-03-08T03:19:16Z) - Unifying Heterogenous Electronic Health Records Systems via Text-Based
Code Embedding [7.3394352452936085]
EHRのためのコードに依存しない表現学習フレームワークであるDescription-based Embedding,DescEmbを紹介する。
DescEmbは、それぞれのイベントを直接専用の埋め込みにマッピングするのではなく、テキストのデクリプションを使用して臨床イベントを埋め込むニューラルネットワーク理解モデルの柔軟性を活用する。
論文 参考訳(メタデータ) (2021-11-12T20:27:55Z) - Self-Supervised Detection of Contextual Synonyms in a Multi-Class
Setting: Phenotype Annotation Use Case [11.912581294872767]
文脈的単語埋め込みは文脈的同義語を検出する強力なツールである。
本研究では,浅部マッチングによって生成されたデータに基づいて,概念の文脈的同義性を検出できる自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-04T21:35:01Z) - Unifying Heterogenous Electronic Health Records Systems via Text-Based
Code Embedding [7.3394352452936085]
本稿では,コードに依存しない記述に基づく表現学習フレームワークであるDescEmbを紹介した。
予測タスクや伝達学習,プール学習など,さまざまな実験において,モデルの性能を検証した。
論文 参考訳(メタデータ) (2021-08-08T12:47:42Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。