論文の概要: Efficient Standardization of Clinical Notes using Large Language Models
- arxiv url: http://arxiv.org/abs/2501.00644v1
- Date: Tue, 31 Dec 2024 20:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:53.291108
- Title: Efficient Standardization of Clinical Notes using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた臨床ノートの効率的な標準化
- Authors: Daniel B. Hier, Michael D. Carrithers, Thanh Son Do, Tayo Obafemi-Ajayi,
- Abstract要約: 不整合は、電子健康記録から有意義なデータを抽出することを妨げる。
臨床ノート1,618のコーパスを標準化するための大規模言語モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Clinician notes are a rich source of patient information but often contain inconsistencies due to varied writing styles, colloquialisms, abbreviations, medical jargon, grammatical errors, and non-standard formatting. These inconsistencies hinder the extraction of meaningful data from electronic health records (EHRs), posing challenges for quality improvement, population health, precision medicine, decision support, and research. We present a large language model approach to standardizing a corpus of 1,618 clinical notes. Standardization corrected an average of $4.9 +/- 1.8$ grammatical errors, $3.3 +/- 5.2$ spelling errors, converted $3.1 +/- 3.0$ non-standard terms to standard terminology, and expanded $15.8 +/- 9.1$ abbreviations and acronyms per note. Additionally, notes were re-organized into canonical sections with standardized headings. This process prepared notes for key concept extraction, mapping to medical ontologies, and conversion to interoperable data formats such as FHIR. Expert review of randomly sampled notes found no significant data loss after standardization. This proof-of-concept study demonstrates that standardization of clinical notes can improve their readability, consistency, and usability, while also facilitating their conversion into interoperable data formats.
- Abstract(参考訳): 臨床医注記は患者情報の豊富な情報源であるが、様々な書体スタイル、口語主義、略語、医学用語、文法的誤り、非標準書式によって矛盾することが多い。
これらの矛盾は、電子健康記録(EHR)から有意義なデータを抽出するのを妨げ、品質改善、人口健康、精密医療、意思決定支援、研究の課題を提起する。
臨床ノート1,618のコーパスを標準化するための大規模言語モデルを提案する。
標準は、平均4.9 +/-1.8$文法エラー、3.3 +/- 5.2$スペルエラー、3.1 +/-3.0$非標準用語を標準用語に変換し、15.8 +/- 9.1$略語と略語を拡張した。
さらに、音符は標準化された方向の正準区間に再編成された。
このプロセスは、鍵となる概念抽出、医療オントロジーへのマッピング、FHIRのような相互運用可能なデータフォーマットへの変換のためのノートを作成する。
ランダムにサンプリングされたノートのエキスパートレビューでは、標準化後の有意なデータ損失は見つからなかった。
この概念実証研究は、臨床ノートの標準化が可読性、一貫性、ユーザビリティを向上させるとともに、相互運用可能なデータフォーマットへの変換を促進することを実証している。
関連論文リスト
- High-Throughput Phenotyping of Clinical Text Using Large Language Models [0.0]
GPT-4はGPT-3.5-Turboを上回り、識別、分類、正規化を行う。
GPT-4は複数の表現型タスクにまたがって高い性能と一般化性をもたらす。
論文 参考訳(メタデータ) (2024-08-02T12:00:00Z) - A Survey on Zero Pronoun Translation [69.09774294082965]
ゼロ代名詞(ZP)はプロドロップ言語では省略されることが多いが、非プロドロップ言語ではリコールされるべきである。
本研究は, 神経革命後のゼロ代名詞翻訳(ZPT)における主要な研究について述べる。
1) ZPTは大規模言語モデルの発展傾向と一致している; 2) データの制限は言語やドメインの学習バイアスを引き起こす; 3) 性能改善は単一のベンチマークで報告されることが多いが、高度な手法はまだ実世界の利用には程遠い。
論文 参考訳(メタデータ) (2023-05-17T13:19:01Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4 [80.36535668574804]
我々は新しいGPT4対応脱識別フレームワーク(DeID-GPT)を開発した。
開発したDeID-GPTは,非構造化医用テキストからの個人情報のマスキングにおいて,高い精度と信頼性を示した。
本研究は,ChatGPTおよびGPT-4を医療用テキストデータ処理および非識別に利用した最初期の1つである。
論文 参考訳(メタデータ) (2023-03-20T11:34:37Z) - Unsupervised Language agnostic WER Standardization [4.768240090076601]
本稿では,スペル正規化とセグメント正規化という2つのモジュールからなる自動WER正規化システムを提案する。
4つの言語にわたる35K発話に対するASRによる実験の結果、平均的なWERの減少率は13.28%となった。
論文 参考訳(メタデータ) (2023-03-09T05:50:54Z) - Token Classification for Disambiguating Medical Abbreviations [0.0]
省略は避けられないが、医療テキストの重要な部分である。
標準化されたマッピングシステムの欠如は、曖昧な省略を困難かつ時間を要するタスクにする。
論文 参考訳(メタデータ) (2022-10-05T18:06:49Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Assessing mortality prediction through different representation models
based on concepts extracted from clinical notes [2.707154152696381]
埋め込みの学習は、音符をそれに匹敵する形式に変換する方法である。
トランスフォーマーベースの表現モデルは、最近大きな飛躍を遂げた。
病院死亡予測の課題において,学習した埋め込みベクターの有用性を評価する実験を行った。
論文 参考訳(メタデータ) (2022-07-22T04:34:33Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Unifying Relational Sentence Generation and Retrieval for Medical Image
Report Composition [142.42920413017163]
現在の手法は、個々のケースのデータセットバイアスにより、しばしば最も一般的な文を生成する。
テンプレート検索と文生成を一体化し、共通およびまれな異常に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-09T04:33:27Z) - Robust Benchmarking for Machine Learning of Clinical Entity Extraction [2.9398911304923447]
我々は、最先端システムの性能を監査し、改善の領域を示す。
2019 n2c2共有タスクにおける臨床エンティティ正規化システムに対する高いタスク精度が誤解を招くことが判明した。
臨床組織抽出のためのアノテーションの枠組みを医療用語の不整合因子に再構成する。
論文 参考訳(メタデータ) (2020-07-31T15:14:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。