論文の概要: MedPromptExtract (Medical Data Extraction Tool): Anonymization and Hi-fidelity Automated data extraction using NLP and prompt engineering
- arxiv url: http://arxiv.org/abs/2405.02664v3
- Date: Fri, 6 Sep 2024 11:38:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 20:23:44.295190
- Title: MedPromptExtract (Medical Data Extraction Tool): Anonymization and Hi-fidelity Automated data extraction using NLP and prompt engineering
- Title(参考訳): MedPromptExtract(医療データ抽出ツール):NLPとプロンプトエンジニアリングを用いた匿名化と階層自動データ抽出
- Authors: Roomani Srivastava, Suraj Prasad, Lipika Bhat, Sarvesh Deshpande, Barnali Das, Kshitij Jadhav,
- Abstract要約: 方法:急性腎不全(AKI)患者のKDAH(Kkilaben Dhirubhai Ambani Hospital)からデータソースが流出した。
高忠実度情報抽出に半教師付き学習技術を活用した既存ツールEIGENを用いてDSの匿名化を行った。
自然言語処理(NLP)は、通常のフィールドからデータを抽出するために用いられた。
- 参考スコア(独自算出の注目度): 1.0470286407954037
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Introduction: The labour-intensive nature of data extraction from sources like discharge summaries (DS) poses significant obstacles to the digitisation of medical records particularly for low- and middle-income countries (LMICs). In this paper we present a completely automated method MedPromptExtract to efficiently extract data from DS while maintaining confidentiality. Methods: The source of data was Discharge Summaries (DS) from Kokilaben Dhirubhai Ambani Hospital (KDAH) of patients having Acute Kidney Injury (AKI). A pre-existing tool EIGEN which leverages semi-supervised learning techniques for high-fidelity information extraction was used to anonymize the DS, Natural Language Processing (NLP) was used to extract data from regular fields. We used Prompt Engineering and Large Language Model(LLM) to extract custom clinical information from free flowing text describing the patients stay in the hospital. Twelve features associated with occurrence of AKI were extracted. The LLM responses were validated against clinicians annotations. Results: The MedPromptExtracttool first subjected DS to the anonymization pipeline which took three seconds per summary. Successful anonymization was verified by clinicians, thereafter NLP pipeline extracted structured text from the anonymized pdfs at the rate of 0.2 seconds per summary with 100% accuracy.Finally DS were analysed by the LLM pipeline using Gemini Pro for the twelve features. Accuracy metrics were calculated by comparing model responses to clinicians annotations with seven features achieving AUCs above 0.9, indicating high fidelity of the extraction process. Conclusion: MedPromptExtract serves as an automated adaptable tool for efficient data extraction from medical records with a dynamic user interface. Keywords: Digitizing Medical Records, Automated Anonymisation, Information Retrieval, Large Language Models, Prompt Engineering
- Abstract(参考訳): はじめに、放電サマリー(DS)のような情報源からのデータ抽出の労働集約性は、特に低所得国や中所得国(LMIC)の医療記録のデジタル化に重大な障害をもたらす。
本稿では,DS からデータを効率よく抽出する完全自動化手法 MedPromptExtract を提案する。
方法】急性腎不全(AKI)患者のKDAH(Kokilaben Dhirubhai Ambani Hospital)からの放電補助剤(DS)がデータ源であった。
高忠実度情報抽出に半教師付き学習技術を活用した事前学習ツールEIGENをDSの匿名化に使用し、正規フィールドからデータを抽出するために自然言語処理(NLP)を使用した。
患者が入院していることを記述したフリーフローテキストから, Prompt Engineering and Large Language Model (LLM) を用いて独自の臨床情報を抽出した。
AKIの発生に関連する12の特徴を抽出した。
LLMの反応は臨床医のアノテーションに対して検証された。
結果: MedPromptExtracttoolは、まずDSを匿名化パイプラインに適用し、サマリ毎に3秒を要した。
臨床医による匿名化が成功し,その後NLPパイプラインは,全要約毎の0.2秒率で匿名化pdfsから構造化テキストを抽出し,100%の精度でDSを抽出し,12種類の特徴についてジェミニプロを用いたLPMパイプラインで解析した。
臨床医のアノテーションに対するモデル応答とAUCを0.9以上で達成する7つの特徴を比較し,抽出過程の忠実度を高く評価した。
結論: MedPromptExtractは、動的ユーザインタフェースで医療記録から効率的なデータ抽出を行うための自動適応ツールとして機能する。
キーワード:医療記録のデジタル化、匿名化の自動化、情報検索、大規模言語モデル、プロンプトエンジニアリング
関連論文リスト
- Artificial Intelligence in Extracting Diagnostic Data from Dental Records [6.132077347366551]
本研究は, 未構造化テキストから診断情報を抽出することにより, 歯科記録に欠落する構造データの問題に対処する。
我々は、GPT-4を利用した高度なAIおよびNLP手法を用いて、RoBERTaモデルの微調整のための合成ノートを生成する。
2つのデータセットからランダムに選択した120個の臨床ノートを用いてモデルの評価を行い,診断精度の向上を実証した。
論文 参考訳(メタデータ) (2024-07-23T04:05:48Z) - GAMedX: Generative AI-based Medical Entity Data Extractor Using Large Language Models [1.123722364748134]
本稿では,Large Language Models(LLMs)を利用した名前付きエンティティ認識(NER)アプローチであるGAMedXを紹介する。
この方法論は、NERのためのオープンソースのLCMを統合し、特殊な医学用語の複雑さをナビゲートするために、連鎖プロンプトとピダンティックスキーマを構造化出力に利用している。
その結果, 評価データセットの1つに対して, 98%の精度でROUGE F1の有意なスコアが得られた。
論文 参考訳(メタデータ) (2024-05-31T02:53:22Z) - Zero-shot information extraction from radiological reports using ChatGPT [19.457604666012767]
情報抽出は文字列を構造化データに変換する戦略である。
様々な下流のNLPタスクにおいて、大きな言語モデルが優れた性能を発揮するため、ゼロショット情報抽出に大規模な言語モデルを使用することが可能である。
本研究では,最もポピュラーな大規模言語モデルであるChatGPTが,放射線学的報告から有用な情報を抽出できるかどうかを検討することを目的とする。
論文 参考訳(メタデータ) (2023-09-04T07:00:26Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing [53.797797404164946]
我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
論文 参考訳(メタデータ) (2023-05-23T08:38:33Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z) - A Marker-based Neural Network System for Extracting Social Determinants
of Health [12.6970199179668]
健康の社会的決定因子(SDoH)は、患者の医療の質と格差を左右する。
多くのSDoHアイテムは、電子健康記録の構造化形式でコード化されていない。
我々は,臨床ノートから自動的にSDoH情報を抽出する,名前付きエンティティ認識(NER),関係分類(RC),テキスト分類手法を含む多段階パイプラインを探索する。
論文 参考訳(メタデータ) (2022-12-24T18:40:23Z) - Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:34:39Z) - DICE: Data-Efficient Clinical Event Extraction with Generative Models [93.49354508621232]
臨床領域のイベント抽出は、未調査の研究領域である。
臨床イベント抽出のための堅牢でデータ効率の良い生成モデルであるDICEを紹介する。
臨床およびニュース領域イベント抽出におけるDICEの最先端性能について実験を行った。
論文 参考訳(メタデータ) (2022-08-16T23:12:04Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。