論文の概要: Can GPT-3.5 Generate and Code Discharge Summaries?
- arxiv url: http://arxiv.org/abs/2401.13512v2
- Date: Mon, 16 Sep 2024 16:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 03:05:43.339088
- Title: Can GPT-3.5 Generate and Code Discharge Summaries?
- Title(参考訳): GPT-3.5は生成可能か?
- Authors: Matúš Falis, Aryo Pradipta Gema, Hang Dong, Luke Daines, Siddharth Basetti, Michael Holder, Rose S Penfold, Alexandra Birch, Beatrice Alex,
- Abstract要約: ICD-10のコード記述リストに基づいて,9,606個の放電サマリーを生成し,符号化した。
ニューラルネットワークモデルはベースラインと拡張データに基づいて訓練された。
マイクロF1スコアとマクロF1スコアを全コードセット、生成コードおよびそれらの家族について報告する。
- 参考スコア(独自算出の注目度): 45.633849969788315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: To investigate GPT-3.5 in generating and coding medical documents with ICD-10 codes for data augmentation on low-resources labels. Materials and Methods: Employing GPT-3.5 we generated and coded 9,606 discharge summaries based on lists of ICD-10 code descriptions of patients with infrequent (generation) codes within the MIMIC-IV dataset. Combined with the baseline training set, this formed an augmented training set. Neural coding models were trained on baseline and augmented data and evaluated on a MIMIC-IV test set. We report micro- and macro-F1 scores on the full codeset, generation codes, and their families. Weak Hierarchical Confusion Matrices were employed to determine within-family and outside-of-family coding errors in the latter codesets. The coding performance of GPT-3.5 was evaluated both on prompt-guided self-generated data and real MIMIC-IV data. Clinical professionals evaluated the clinical acceptability of the generated documents. Results: Augmentation slightly hinders the overall performance of the models but improves performance for the generation candidate codes and their families, including one unseen in the baseline training data. Augmented models display lower out-of-family error rates. GPT-3.5 can identify ICD-10 codes by the prompted descriptions, but performs poorly on real data. Evaluators note the correctness of generated concepts while suffering in variety, supporting information, and narrative. Discussion and Conclusion: GPT-3.5 alone is unsuitable for ICD-10 coding. Augmentation positively affects generation code families but mainly benefits codes with existing examples. Augmentation reduces out-of-family errors. Discharge summaries generated by GPT-3.5 state prompted concepts correctly but lack variety, and authenticity in narratives. They are unsuitable for clinical practice.
- Abstract(参考訳): 目的:低リソースラベルのデータ拡張のためのICD-10符号を用いた医用文書の生成・符号化におけるGPT-3.5の検討。
資料と方法:MIMIC-IVデータセットに低頻度(世代)符号を持つ患者のICD-10コード記述リストに基づいてGPT-3.5を用いて,9,606個の放電サマリーを作成した。
ベースライントレーニングセットと組み合わせて、拡張トレーニングセットを形成した。
ニューラルネットワークモデルはベースラインと拡張データに基づいてトレーニングされ、MIMIC-IVテストセットで評価された。
マイクロF1スコアとマクロF1スコアを全コードセット、生成コードおよびそれらの家族について報告する。
Weak Hierarchical Confusion Matricesは、後者のコードセットにおいて、家族内および家族外のコーディングエラーを決定するために使用される。
GPT-3.5の符号化性能は,プロンプト誘導型自己生成データと実MIMIC-IVデータの両方で評価した。
臨床専門家は、生成された文書の臨床的受容性を評価した。
結果: Augmentationはモデル全体のパフォーマンスをわずかに阻害するが、ベースライントレーニングデータに見当たらないものを含め、生成候補コードとその家族のパフォーマンスを改善する。
拡張されたモデルは、家族内エラー率を低く表示する。
GPT-3.5 はインプットされた記述によって ICD-10 の符号を識別できるが、実際のデータでは不十分である。
評価者は、多様性、支援情報、物語に苦しんでいる間に生成された概念の正しさに注意する。
議論と結論: GPT-3.5 だけでは ICD-10 のコーディングには適さない。
拡張は、ジェネレーションコードファミリに影響を与えるが、主に既存の例でコードに恩恵を与える。
拡張により、家族外のエラーが減少する。
GPT-3.5状態によって生成された放電サマリーは、正しい概念を導き出したが、物語における多様性と信頼性は欠如していた。
臨床には適さない。
関連論文リスト
- MedCodER: A Generative AI Assistant for Medical Coding [3.7153274758003967]
我々は、自動医療コーディングのためのジェネレーティブAIフレームワークであるMedCodERを紹介する。
MedCodERは、ICD(International Classification of Diseases)コード予測において、マイクロF1スコアの0.60を達成している。
疾患診断,ICD符号,エビデンステキストを付加した医療記録を含む新しいデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-18T19:36:33Z) - Improving ICD coding using Chapter based Named Entities and Attentional Models [0.0]
我々は、章ベースの名前付きエンティティと注意モデルを用いて、F1スコアを改善するICD符号化の強化アプローチを導入する。
本手法は, 放電サマリーをICD-9章に分類し, 章別データを用いた注意モデルを開発する。
分類には第IV章を使用し、ニューラルネットワークを使わずに重要な要素や重みをデバイアスし、影響を及ぼす。
論文 参考訳(メタデータ) (2024-07-24T12:34:23Z) - A Two-Stage Decoder for Efficient ICD Coding [10.634394331433322]
ICD符号の予測のための2段階復号機構を提案する。
まず、まず親コードを予測し、その子コードを前回の予測に基づいて予測する。
公開MIMIC-IIIデータセット実験により,本モデルが単一モデル設定で良好に動作することを示す。
論文 参考訳(メタデータ) (2023-05-27T17:25:13Z) - Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review
and Replicability Study [60.56194508762205]
我々は、最先端の医療自動化機械学習モデルを再現し、比較し、分析する。
その結果, 弱い構成, サンプル化の不十分さ, 評価の不十分さなどにより, いくつかのモデルの性能が低下していることが判明した。
再生モデルを用いたMIMIC-IVデータセットの総合評価を行った。
論文 参考訳(メタデータ) (2023-04-21T11:54:44Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Multi-label Few-shot ICD Coding as Autoregressive Generation with Prompt [7.554528566861559]
本研究では,このマルチラベル分類タスクを自己回帰生成タスクに変換する。
ICD符号の高次元空間を直接予測する代わりに、我々のモデルはテキスト記述の低次元を生成する。
MIMIC-III-few実験により,従来のMIMIC-III-full SOTAモデルよりも大幅に優れるマルコF130.2が得られた。
論文 参考訳(メタデータ) (2022-11-24T22:10:50Z) - ICDBigBird: A Contextual Embedding Model for ICD Code Classification [71.58299917476195]
文脈単語埋め込みモデルは、複数のNLPタスクにおいて最先端の結果を得た。
ICDBigBirdは、Graph Convolutional Network(GCN)を統合するBigBirdベースのモデルである。
ICD分類作業におけるBigBirdモデルの有効性を実世界の臨床データセットで実証した。
論文 参考訳(メタデータ) (2022-04-21T20:59:56Z) - TransICD: Transformer Based Code-wise Attention Model for Explainable
ICD Coding [5.273190477622007]
国際疾患分類法 (ICD) は, 医療分野の請求システムにおいて有効かつ重要であることが示されている。
現在、ICDコードは手動で臨床メモに割り当てられており、多くのエラーを引き起こす可能性がある。
本稿では,文書のトークン間の相互依存を捉えるためにトランスフォーマーベースのアーキテクチャを適用し,コードワイド・アテンション・メカニズムを用いて文書全体のコード固有表現を学習する。
論文 参考訳(メタデータ) (2021-03-28T05:34:32Z) - Collaborative residual learners for automatic icd10 prediction using
prescribed medications [45.82374977939355]
本稿では,処方用データのみを用いたicd10符号の自動予測のための協調残差学習モデルを提案する。
平均精度0.71および0.57のマルチラベル分類精度、F1スコア0.57および0.38の0.73および0.44の精度を取得し、患者および外来データセットの主診断をそれぞれ予測します。
論文 参考訳(メタデータ) (2020-12-16T07:07:27Z) - Ensemble model for pre-discharge icd10 coding prediction [45.82374977939355]
正確なコード予測のための複数の臨床データソースを組み込んだアンサンブルモデルを提案する。
平均精度は0.73および0.58、F1スコアは0.56および0.35、患者および外来データセットの主診断予測では0.71および0.4のマルチラベル分類精度を得る。
論文 参考訳(メタデータ) (2020-12-16T07:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。