論文の概要: MedPromptExtract (Medical Data Extraction Tool): Anonymization and Hi-fidelity Automated data extraction using NLP and prompt engineering
- arxiv url: http://arxiv.org/abs/2405.02664v3
- Date: Fri, 6 Sep 2024 11:38:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 20:23:44.295190
- Title: MedPromptExtract (Medical Data Extraction Tool): Anonymization and Hi-fidelity Automated data extraction using NLP and prompt engineering
- Title(参考訳): MedPromptExtract(医療データ抽出ツール):NLPとプロンプトエンジニアリングを用いた匿名化と階層自動データ抽出
- Authors: Roomani Srivastava, Suraj Prasad, Lipika Bhat, Sarvesh Deshpande, Barnali Das, Kshitij Jadhav,
- Abstract要約: 方法:急性腎不全(AKI)患者のKDAH(Kkilaben Dhirubhai Ambani Hospital)からデータソースが流出した。
高忠実度情報抽出に半教師付き学習技術を活用した既存ツールEIGENを用いてDSの匿名化を行った。
自然言語処理(NLP)は、通常のフィールドからデータを抽出するために用いられた。
- 参考スコア(独自算出の注目度): 1.0470286407954037
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Introduction: The labour-intensive nature of data extraction from sources like discharge summaries (DS) poses significant obstacles to the digitisation of medical records particularly for low- and middle-income countries (LMICs). In this paper we present a completely automated method MedPromptExtract to efficiently extract data from DS while maintaining confidentiality. Methods: The source of data was Discharge Summaries (DS) from Kokilaben Dhirubhai Ambani Hospital (KDAH) of patients having Acute Kidney Injury (AKI). A pre-existing tool EIGEN which leverages semi-supervised learning techniques for high-fidelity information extraction was used to anonymize the DS, Natural Language Processing (NLP) was used to extract data from regular fields. We used Prompt Engineering and Large Language Model(LLM) to extract custom clinical information from free flowing text describing the patients stay in the hospital. Twelve features associated with occurrence of AKI were extracted. The LLM responses were validated against clinicians annotations. Results: The MedPromptExtracttool first subjected DS to the anonymization pipeline which took three seconds per summary. Successful anonymization was verified by clinicians, thereafter NLP pipeline extracted structured text from the anonymized pdfs at the rate of 0.2 seconds per summary with 100% accuracy.Finally DS were analysed by the LLM pipeline using Gemini Pro for the twelve features. Accuracy metrics were calculated by comparing model responses to clinicians annotations with seven features achieving AUCs above 0.9, indicating high fidelity of the extraction process. Conclusion: MedPromptExtract serves as an automated adaptable tool for efficient data extraction from medical records with a dynamic user interface. Keywords: Digitizing Medical Records, Automated Anonymisation, Information Retrieval, Large Language Models, Prompt Engineering
- Abstract(参考訳): はじめに、放電サマリー(DS)のような情報源からのデータ抽出の労働集約性は、特に低所得国や中所得国(LMIC)の医療記録のデジタル化に重大な障害をもたらす。
本稿では,DS からデータを効率よく抽出する完全自動化手法 MedPromptExtract を提案する。
方法】急性腎不全(AKI)患者のKDAH(Kokilaben Dhirubhai Ambani Hospital)からの放電補助剤(DS)がデータ源であった。
高忠実度情報抽出に半教師付き学習技術を活用した事前学習ツールEIGENをDSの匿名化に使用し、正規フィールドからデータを抽出するために自然言語処理(NLP)を使用した。
患者が入院していることを記述したフリーフローテキストから, Prompt Engineering and Large Language Model (LLM) を用いて独自の臨床情報を抽出した。
AKIの発生に関連する12の特徴を抽出した。
LLMの反応は臨床医のアノテーションに対して検証された。
結果: MedPromptExtracttoolは、まずDSを匿名化パイプラインに適用し、サマリ毎に3秒を要した。
臨床医による匿名化が成功し,その後NLPパイプラインは,全要約毎の0.2秒率で匿名化pdfsから構造化テキストを抽出し,100%の精度でDSを抽出し,12種類の特徴についてジェミニプロを用いたLPMパイプラインで解析した。
臨床医のアノテーションに対するモデル応答とAUCを0.9以上で達成する7つの特徴を比較し,抽出過程の忠実度を高く評価した。
結論: MedPromptExtractは、動的ユーザインタフェースで医療記録から効率的なデータ抽出を行うための自動適応ツールとして機能する。
キーワード:医療記録のデジタル化、匿名化の自動化、情報検索、大規模言語モデル、プロンプトエンジニアリング
関連論文リスト
- Automated Information Extraction from Thyroid Operation Narrative: A Comparative Study of GPT-4 and Fine-tuned KoELECTRA [1.137357582959183]
本研究は, GPT-4モデルと比較し, 微調整KoELECTRAモデルの変形特性に着目した。
この研究は、高度な自然言語処理(NLP)技術を活用し、より高度なデータ処理システムへのパラダイムシフトを促進する。
論文 参考訳(メタデータ) (2024-06-12T06:44:05Z) - GAMedX: Generative AI-based Medical Entity Data Extractor Using Large Language Models [1.123722364748134]
本稿では,Large Language Models(LLMs)を利用した名前付きエンティティ認識(NER)アプローチであるGAMedXを紹介する。
この方法論は、NERのためのオープンソースのLCMを統合し、特殊な医学用語の複雑さをナビゲートするために、連鎖プロンプトとピダンティックスキーマを構造化出力に利用している。
その結果, 評価データセットの1つに対して, 98%の精度でROUGE F1の有意なスコアが得られた。
論文 参考訳(メタデータ) (2024-05-31T02:53:22Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - LLMs Accelerate Annotation for Medical Information Extraction [7.743388571513413]
本稿では,LLM(Large Language Models)と人間の専門知識を組み合わせた手法を提案する。
医療情報抽出タスクにおいて,我々の手法を厳格に評価し,我々のアプローチが人的介入を大幅に削減するだけでなく,高い精度を維持していることを示す。
論文 参考訳(メタデータ) (2023-12-04T19:26:13Z) - Into the Single Cell Multiverse: an End-to-End Dataset for Procedural
Knowledge Extraction in Biomedical Texts [2.2578044590557553]
FlaMB'eは、バイオメディカルテキストの手続き的知識をキャプチャする専門家によるデータセットのコレクションである。
このデータセットは、非構造化テキストとして記述される手続き的知識のユビキタスソースが、その方法論を記述する学術論文の中にあるという観察にインスパイアされている。
論文 参考訳(メタデータ) (2023-09-04T21:02:36Z) - Advancing Italian Biomedical Information Extraction with
Transformers-based Models: Methodological Insights and Multicenter Practical
Application [0.27027468002793437]
インフォメーション抽出は、自動化されたテキストマイニングパイプラインを使用することで、臨床実践者が限界を克服するのに役立つ。
我々は、最初のイタリアの神経心理学的名前付きエンティティ認識データセットであるPsyNITを作成し、それをトランスフォーマーベースのモデルの開発に利用した。
i)一貫性のあるアノテーションプロセスの重要な役割と(ii)古典的なメソッドと“低リソース”なアプローチを組み合わせた微調整戦略です。
論文 参考訳(メタデータ) (2023-06-08T16:15:46Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - Distantly supervised end-to-end medical entity extraction from
electronic health records with human-level quality [77.34726150561087]
本稿では,電子健康記録(EHR)から医療用脳波を単一段階のマルチラベル分類タスクとして行う新しい手法を提案する。
我々のモデルは、医療知識ベースから自動的に抽出されたターゲットを用いて、遠距離から教師付きでエンドツーエンドに訓練されている。
我々の研究は、十分な量の未ラベルのEHRと医療知識ベースが利用できることを考えると、人間の監督なく、人的品質で、医療機関の抽出をエンドツーエンドで行えることを実証している。
論文 参考訳(メタデータ) (2022-01-25T17:04:46Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - BiteNet: Bidirectional Temporal Encoder Network to Predict Medical
Outcomes [53.163089893876645]
本稿では,患者の医療旅行におけるコンテキスト依存と時間的関係を捉える,新たな自己注意機構を提案する。
エンド・ツー・エンドの双方向時間エンコーダネットワーク(BiteNet)が患者の旅路の表現を学習する。
実世界のEHRデータセットを用いた2つの教師付き予測と2つの教師なしクラスタリングタスクにおける手法の有効性を評価した。
論文 参考訳(メタデータ) (2020-09-24T00:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。