論文の概要: Natural language processing to identify lupus nephritis phenotype in
electronic health records
- arxiv url: http://arxiv.org/abs/2112.10821v1
- Date: Mon, 20 Dec 2021 19:33:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 01:05:29.416086
- Title: Natural language processing to identify lupus nephritis phenotype in
electronic health records
- Title(参考訳): 電子健康記録におけるループス腎炎表現型同定のための自然言語処理
- Authors: Yu Deng, Jennifer A. Pacheco, Anh Chung, Chengsheng Mao, Joshua C.
Smith, Juan Zhao, Wei-Qi Wei, April Barnado, Chunhua Weng, Cong Liu, Adam
Cordon, Jingzhi Yu, Yacob Tedla, Abel Kho, Rosalind Ramsey-Goldman, Theresa
Walunas, Yuan Luo
- Abstract要約: ループス腎炎は、臓器損傷と死亡に対するSLEの主要な疾患の1つである。
EHRデータを用いた自然言語処理(NLP)によりループス腎炎を同定するアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 11.714947406532932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Systemic lupus erythematosus (SLE) is a rare autoimmune disorder
characterized by an unpredictable course of flares and remission with diverse
manifestations. Lupus nephritis, one of the major disease manifestations of SLE
for organ damage and mortality, is a key component of lupus classification
criteria. Accurately identifying lupus nephritis in electronic health records
(EHRs) would therefore benefit large cohort observational studies and clinical
trials where characterization of the patient population is critical for
recruitment, study design, and analysis. Lupus nephritis can be recognized
through procedure codes and structured data, such as laboratory tests. However,
other critical information documenting lupus nephritis, such as histologic
reports from kidney biopsies and prior medical history narratives, require
sophisticated text processing to mine information from pathology reports and
clinical notes. In this study, we developed algorithms to identify lupus
nephritis with and without natural language processing (NLP) using EHR data. We
developed four algorithms: a rule-based algorithm using only structured data
(baseline algorithm) and three algorithms using different NLP models. The three
NLP models are based on regularized logistic regression and use different sets
of features including positive mention of concept unique identifiers (CUIs),
number of appearances of CUIs, and a mixture of three components respectively.
The baseline algorithm and the best performed NLP algorithm were external
validated on a dataset from Vanderbilt University Medical Center (VUMC). Our
best performing NLP model incorporating features from both structured data,
regular expression concepts, and mapped CUIs improved F measure in both the
NMEDW (0.41 vs 0.79) and VUMC (0.62 vs 0.96) datasets compared to the baseline
lupus nephritis algorithm.
- Abstract(参考訳): 全身性エリテマトーデス(systemic lupus erythematosus、sle)は、予測不能なフレアと寛解を特徴とする稀な自己免疫疾患である。
ループス腎炎は, 臓器損傷と死亡に対するSLEの主要な疾患の1つであり, ループス分類基準の重要な構成要素である。
したがって、電子健康記録(EHR)におけるループス腎炎の正確な同定は、患者集団の特徴が採用、設計、分析に欠かせない大規模なコホート観察研究や臨床試験に有用である。
ループス腎炎は、手順コードや検査などの構造化データを通じて認識することができる。
しかし、腎臓生検の病理報告や以前の医学史物語など、ループス腎炎を文書化する他の重要な情報は、病理報告や臨床記録から情報を発掘するために高度なテキスト処理を必要とする。
本研究では,EHRデータを用いた自然言語処理(NLP)によりループス腎炎を同定するアルゴリズムを開発した。
構造化データ(ベースラインアルゴリズム)のみを用いたルールベースアルゴリズムと,異なるNLPモデルを用いた3つのアルゴリズムを開発した。
3つのNLPモデルは、正規化ロジスティック回帰に基づいており、概念固有の識別子(CUI)の肯定的な言及、CUIの出現数、それぞれ3つのコンポーネントの混合など、さまざまな特徴セットを使用している。
ベースラインアルゴリズムと最も優れたNLPアルゴリズムはヴァンダービルト大学医療センター(VUMC)のデータセットで検証された。
NMEDW (0.41 vs 0.79) と VUMC (0.62 vs 0.96) の両方のデータセットにおいて, 構造データ, 正規表現概念, マップ化されたCUIの両特徴を取り入れたNLPモデルを改良した。
関連論文リスト
- Distinguishing Parkinson's Patients Using Voice-Based Feature Extraction and Classification [0.0]
本研究は、パーキンソン病患者の音声特徴の抽出と分類を通じて、健常者からパーキンソン病を区別することに焦点を当てる。
また,3層ニューラルネットワークアーキテクチャの精度を従来の機械学習アルゴリズムと比較した。
論文 参考訳(メタデータ) (2025-01-24T10:44:16Z) - A data-driven approach to discover and quantify systemic lupus erythematosus etiological heterogeneity from electronic health records [4.167173990365707]
全身性エリテマトーデス(Systemic lupus erythematosus, SLE)は、多くの症状を呈する複雑な疾患である。
マルチモーダル不完全なEHRデータから確率的独立情報源を発見するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2025-01-13T11:00:31Z) - FedCVD: The First Real-World Federated Learning Benchmark on Cardiovascular Disease Data [52.55123685248105]
心臓血管疾患(CVD)は、現在世界でも主要な死因であり、早期診断と治療の要点を浮き彫りにしている。
機械学習(ML)手法はCVDの早期診断に役立つが、その性能は高品質なデータへのアクセスに依存している。
本稿では、FedCVDという心臓血管疾患検出のための、世界初の実世界のFLベンチマークを示す。
論文 参考訳(メタデータ) (2024-10-28T02:24:01Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - Identifying Symptoms of Delirium from Clinical Narratives Using Natural
Language Processing [21.955746826015446]
デリリウムは注意、意識、その他の認知機能の急激な低下または変動であり、深刻な有害な結果をもたらす可能性がある。
重篤な結果にもかかわらず、デリリウムは患者の電子的健康記録に認識されず、コード化されていないことが多い。
臨床ノートから, さまざまなデリリウム症状を抽出するNLP法を考案し, 臨床ノートからデリリウム症状を抽出した。
論文 参考訳(メタデータ) (2023-03-31T20:16:44Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Intelligent Sight and Sound: A Chronic Cancer Pain Dataset [74.77784420691937]
本稿では,Intelligent Sight and Sound (ISS) 臨床試験の一環として収集された,最初の慢性ガン痛データセットを紹介する。
これまで収集されたデータは29の患者、509のスマートフォンビデオ、189,999のフレーム、そして自己報告された感情と活動の痛みのスコアから成っている。
静的画像とマルチモーダルデータを用いて、自己報告された痛みレベルを予測する。
論文 参考訳(メタデータ) (2022-04-07T22:14:37Z) - An Open Natural Language Processing Development Framework for EHR-based
Clinical Research: A case demonstration using the National COVID Cohort
Collaborative (N3C) [29.701601520785033]
我々は、N3C(National COVID Cohort Collaborative)のためのNLPアルゴリズムの実装を通じて、オープンな自然言語処理開発フレームワークを提案し、評価する。
本研究は,(1)新型コロナウイルスの症状と症状を用いたオープンなデータアノテーションプロセス,2)コミュニティ主導のルールセット作成プラットフォーム,3)人体を介さずに情報抽出タスクのテキストを生成するための合成テキストデータ生成ワークフロー,である。
論文 参考訳(メタデータ) (2021-10-20T21:09:41Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Improving Clinical Document Understanding on COVID-19 Research with
Spark NLP [0.0]
世界的な新型コロナウイルスのパンデミックの後、ウイルスを研究する科学論文の数は大幅に増加しました。
これまでの取り組みを3つの方法で改善する臨床テキストマイニングシステムを紹介します。
まず、健康、解剖学、リスクファクター、有害事象の社会的決定要因を含む100以上の異なるエンティティタイプを認識することができます。
第2に、テキスト処理パイプラインは、アサーション状態検出を含み、患者以外の誰かの存在、欠如、条件付き、または、患者に関する臨床事実を区別する。
論文 参考訳(メタデータ) (2020-12-07T19:17:05Z) - Trajectories, bifurcations and pseudotime in large clinical datasets:
applications to myocardial infarction and diabetes data [94.37521840642141]
混合データ型と欠落値を特徴とする大規模臨床データセット分析のための半教師付き方法論を提案する。
この手法は、次元の減少、データの可視化、クラスタリング、特徴の選択と、部分的に順序付けられた観測列における測地距離(擬時)の定量化のタスクを同時に扱うことのできる弾性主グラフの適用に基づいている。
論文 参考訳(メタデータ) (2020-07-07T21:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。