論文の概要: Practical Design and Benchmarking of Generative AI Applications for Surgical Billing and Coding
- arxiv url: http://arxiv.org/abs/2501.05479v1
- Date: Tue, 07 Jan 2025 17:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:28:22.829268
- Title: Practical Design and Benchmarking of Generative AI Applications for Surgical Billing and Coding
- Title(参考訳): 手術ビリングと符号化のための生成型AIアプリケーションの実践的設計とベンチマーク
- Authors: John C. Rollman, Bruce Rogers, Hamed Zaribafzadeh, Daniel Buckland, Ursula Rogers, Jennifer Gagnon, Ozanan Meireles, Lindsay Jennings, Jim Bennett, Jennifer Nicholson, Nandan Lad, Linda Cendales, Andreas Seas, Alessandro Martinino, E. Shelley Hwang, Allan D. Kirk,
- Abstract要約: 医療請求とコーディングのための生成AIツールを開発するための戦略を提案する。
本研究は、ドメイン固有データに基づいて微調整された小さなモデルが、より大規模な消費者モデルと同等に機能することを示す。
- 参考スコア(独自算出の注目度): 27.93881956637585
- License:
- Abstract: Background: Healthcare has many manual processes that can benefit from automation and augmentation with Generative Artificial Intelligence (AI), the medical billing and coding process. However, current foundational Large Language Models (LLMs) perform poorly when tasked with generating accurate International Classification of Diseases, 10th edition, Clinical Modification (ICD-10-CM) and Current Procedural Terminology (CPT) codes. Additionally, there are many security and financial challenges in the application of generative AI to healthcare. We present a strategy for developing generative AI tools in healthcare, specifically for medical billing and coding, that balances accuracy, accessibility, and patient privacy. Methods: We fine tune the PHI-3 Mini and PHI-3 Medium LLMs using institutional data and compare the results against the PHI-3 base model, a PHI-3 RAG application, and GPT-4o. We use the post operative surgical report as input and the patients billing claim the associated ICD-10, CPT, and Modifier codes as the target result. Performance is measured by accuracy of code generation, proportion of invalid codes, and the fidelity of the billing claim format. Results: Both fine-tuned models performed better or as well as GPT-4o. The Phi-3 Medium fine-tuned model showed the best performance (ICD-10 Recall and Precision: 72%, 72%; CPT Recall and Precision: 77%, 79%; Modifier Recall and Precision: 63%, 64%). The Phi-3 Medium fine-tuned model only fabricated 1% of ICD-10 codes and 0.6% of CPT codes generated. Conclusions: Our study shows that a small model that is fine-tuned on domain-specific data for specific tasks using a simple set of open-source tools and minimal technological and monetary requirements performs as well as the larger contemporary consumer models.
- Abstract(参考訳): 背景: 医療には、医療請求とコーディングプロセスである生成人工知能(AI)による自動化と強化の恩恵を受けることのできる、多くの手動プロセスがあります。
しかしながら、現在の基礎言語モデル(LLM)は、正確な国際疾患分類、第10版、臨床修正(ICD-10-CM)、CPT(Current Procedural Terminology)コードを生成する際には、性能が劣っている。
さらに、医療への生成AIの適用には、多くのセキュリティと財政上の課題がある。
医療におけるジェネレーティブAIツールの開発戦略について述べる。特に医療請求やコーディングにおいて,正確性,アクセシビリティ,患者のプライバシのバランスをとる。
方法: PHI-3 Mini および PHI-3 Medium LLM を施設データを用いて微調整し,PHI-3 ベースモデル,PHI-3 RAG アプリケーションおよび GPT-4o と比較した。
術後の手術報告を入力として使用し,ICD-10, CPT, Modifier 符号を対象として請求した。
性能は、コード生成の精度、無効コードの比率、請求請求書フォーマットの忠実さによって測定される。
結果: 両モデルともGPT-4oよりも良好な性能を示した。
Phi-3 Mediumの微調整モデルが最も優れた性能を示した(ICD-10のリコールと精度は72%、72%、CPTのリコールと精度は77%、79%、修正器のリコールと精度は63%、64%)。
Phi-3 Mediumの微調整モデルでは、ICD-10符号の1%とCPT符号の0.6%しか生成できなかった。
結論:本研究では,オープンソースツールの簡単なセットと最小限の技術的・金銭的要件を用いて,特定のタスクに対するドメイン固有データに基づいて微調整された小さなモデルが,より大規模な消費者モデルだけでなく,実行可能であることを示す。
関連論文リスト
- Unlocking Historical Clinical Trial Data with ALIGN: A Compositional Large Language Model System for Medical Coding [44.01429184037945]
自動ゼロショット医療符号化のための新しい合成LLMシステムであるALIGNを紹介する。
我々は、ALIGNを解剖学的治療化学(ATC)と医学史用語に調和させ、MedDRA(Medicical Dictionary for Regulatory Activity)コードに評価した。
論文 参考訳(メタデータ) (2024-11-20T09:59:12Z) - Improving ICD coding using Chapter based Named Entities and Attentional Models [0.0]
我々は、章ベースの名前付きエンティティと注意モデルを用いて、F1スコアを改善するICD符号化の強化アプローチを導入する。
本手法は, 放電サマリーをICD-9章に分類し, 章別データを用いた注意モデルを開発する。
分類には第IV章を使用し、ニューラルネットワークを使わずに重要な要素や重みをデバイアスし、影響を及ぼす。
論文 参考訳(メタデータ) (2024-07-24T12:34:23Z) - Large language models are good medical coders, if provided with tools [0.0]
本研究は,ICD-10-CM自動医療符号化のための2段階リトリーブ・ランクシステムを提案する。
両方のシステムを100の単一長期医療条件のデータセットで評価する。
Retrieve-Rank システムは正しい ICD-10-CM 符号の予測において100%の精度を達成した。
論文 参考訳(メタデータ) (2024-07-06T06:58:51Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Can GPT-3.5 Generate and Code Discharge Summaries? [45.633849969788315]
ICD-10のコード記述リストに基づいて,9,606個の放電サマリーを生成し,符号化した。
ニューラルネットワークモデルはベースラインと拡張データに基づいて訓練された。
マイクロF1スコアとマクロF1スコアを全コードセット、生成コードおよびそれらの家族について報告する。
論文 参考訳(メタデータ) (2024-01-24T15:10:13Z) - Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review
and Replicability Study [60.56194508762205]
我々は、最先端の医療自動化機械学習モデルを再現し、比較し、分析する。
その結果, 弱い構成, サンプル化の不十分さ, 評価の不十分さなどにより, いくつかのモデルの性能が低下していることが判明した。
再生モデルを用いたMIMIC-IVデータセットの総合評価を行った。
論文 参考訳(メタデータ) (2023-04-21T11:54:44Z) - ICDBigBird: A Contextual Embedding Model for ICD Code Classification [71.58299917476195]
文脈単語埋め込みモデルは、複数のNLPタスクにおいて最先端の結果を得た。
ICDBigBirdは、Graph Convolutional Network(GCN)を統合するBigBirdベースのモデルである。
ICD分類作業におけるBigBirdモデルの有効性を実世界の臨床データセットで実証した。
論文 参考訳(メタデータ) (2022-04-21T20:59:56Z) - Collaborative residual learners for automatic icd10 prediction using
prescribed medications [45.82374977939355]
本稿では,処方用データのみを用いたicd10符号の自動予測のための協調残差学習モデルを提案する。
平均精度0.71および0.57のマルチラベル分類精度、F1スコア0.57および0.38の0.73および0.44の精度を取得し、患者および外来データセットの主診断をそれぞれ予測します。
論文 参考訳(メタデータ) (2020-12-16T07:07:27Z) - Multi-label natural language processing to identify diagnosis and
procedure codes from MIMIC-III inpatient notes [0.0]
米国では、医療用コードや請求書を含む管理費として、病院支出の25%以上を計上している。
自然言語処理は、構造化されていない臨床ノートからコードやラベルの抽出を自動化することができる。
我々のモデルは、87.08%、F1スコア85.82%、AUC91.76%をトップ10コードで達成した。
論文 参考訳(メタデータ) (2020-03-17T02:56:27Z) - Natural language processing of MIMIC-III clinical notes for identifying
diagnosis and procedures with neural networks [0.0]
臨床ノートを医療コードにマッピングできる自然言語処理モデルの性能について報告する。
当科では, 最多の救急部臨床ノートデータセットMIMIC IIIに最先端の深層学習法UMMFiTを適用した。
我々のモデルは80.3%と80.5%の精度で上位10の診断と手順を予測できたが、上位50のICD-9符号は70.7%と63.9%の精度で予測された。
論文 参考訳(メタデータ) (2019-12-28T04:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。