論文の概要: Leveraging Large Language Models to Extract and Translate Medical Information in Doctors' Notes for Health Records and Diagnostic Billing Codes
- arxiv url: http://arxiv.org/abs/2603.22625v1
- Date: Wed, 14 Jan 2026 12:21:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.980666
- Title: Leveraging Large Language Models to Extract and Translate Medical Information in Doctors' Notes for Health Records and Diagnostic Billing Codes
- Title(参考訳): 医療記録・診断請求コードにおける大規模言語モデルを活用した医療情報の抽出・翻訳
- Authors: Peter Hartnett, Chung-Chi Huang, Sarah Hartnett, David Hartnett,
- Abstract要約: 本論文では,オープンウェイトなLarge Language Models (LLMs) を用いて医師ノートから臨床情報を抽出し,クラウドベースのサービスに依存しないICD-10-CM診断コードに変換する。
複数のオープンウェイトモデルを評価するために、Ollama、LangChain、コンテナ化された環境を使用して、プライバシを重視したパイプラインが開発された。
その結果、厳密なスキーマ適用は100%近いコンプライアンスを達成したが、より小さなモデルでは、特定の診断符号の正確な生成は困難であることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Physician burnout in the United States has reached critical levels, driven in part by the administrative burden of Electronic Health Record (EHR) documentation and complex diagnostic codes. To relieve this strain and maintain strict patient privacy, this thesis explores an on-device, offline automatic medical coding system. The work focuses on using open-weight Large Language Models (LLMs) to extract clinical information from physician notes and translate it into ICD-10-CM diagnostic codes without reliance on cloud-based services. A privacy-focused pipeline was developed using Ollama, LangChain, and containerized environments to evaluate multiple open-weight models, including Llama 3.2, Mistral, Phi, and DeepSeek, on consumer-grade hardware. Model performance was assessed for zero-shot, few-shot, and retrieval-augmented generation (RAG) prompting strategies using a novel benchmark of synthetic medical notes. Results show that strict JSON schema enforcement achieved near 100% formatting compliance, but accurate generation of specific diagnostic codes remains challenging for smaller local models (7B-20B parameters). Contrary to common prompt-engineering guidance, few-shot prompting degraded performance through overfitting and hallucinations. While RAG enabled limited discovery of unseen codes, it frequently saturated context windows, reducing overall accuracy. The findings suggest that fully automated unsupervised coding with local open-source models is not yet reliable; instead, a human-in-the-loop assisted coding approach is currently the most practical path forward. This work contributes a reproducible local LLM architecture and benchmark dataset for privacy-preserving medical information extraction and coding.
- Abstract(参考訳): 米国における医師のバーンアウトは、電子健康記録(EHR)の文書と複雑な診断コードによる管理上の負担によって、重要なレベルに達している。
この緊張を和らげ、厳格な患者のプライバシーを維持するために、この論文はオンデバイスでオフラインの医療自動コーディングシステムを探究する。
この研究は、オープンウェイトなLarge Language Models(LLMs)を使用して、医師ノートから臨床情報を抽出し、クラウドベースのサービスに依存しないICD-10-CM診断コードに変換することに重点を置いている。
Ollama、LangChain、コンテナ化された環境を使用して、Llama 3.2、Mistral、Phi、DeepSeekなどの複数のオープンウェイトモデルを評価するために、プライバシを重視したパイプラインが開発された。
モデル性能をゼロショット,少数ショット,検索強化生成(RAG)で評価し,新しい医用ノートのベンチマークを用いて戦略を推し進めた。
結果から,厳密なJSONスキーマ適用が100%のフォーマットコンプライアンスを達成しているが,より小さなローカルモデル(7B-20Bパラメータ)では,特定の診断コードの正確な生成が困難なままである。
一般的なプロンプトエンジニアリングのガイダンスとは対照的に、数発のショットは過剰なフィットと幻覚を通じてパフォーマンスを低下させる。
RAGは見当たらないコードの限定的な発見を可能にしたが、しばしば飽和したコンテキストウィンドウを発生させ、全体的な精度を低下させた。
この結果は、完全に自動化された非教師付きコーディングとローカルなオープンソースモデルはまだ信頼性が低いことを示唆している。
この研究は、複製可能なローカルLCMアーキテクチャと、プライバシを保存する医療情報抽出およびコーディングのためのベンチマークデータセットに貢献する。
関連論文リスト
- Training a Large Language Model for Medical Coding Using Privacy-Preserving Synthetic Clinical Data [10.24013423253024]
本稿では,現代のオープンウェイト基盤モデルが,専門家レベルの医療用コーディングタスクに適応できるかどうかを検討する。
Llama 3-70B を EHR-grounded templates と code policy から生成された臨床ノートとゴールドコードに微調整する。
合成コーパスの微調整の後、精度の高いF1は0.70を超え、両方のコードシステムで絶対的な利得を示している。
論文 参考訳(メタデータ) (2026-03-06T02:02:49Z) - MedDCR: Learning to Design Agentic Workflows for Medical Coding [55.51674334874892]
医療符号化は、フリーテキスト臨床ノートを標準化された診断および手続きコードに変換する。
本稿では,設計を学習問題として扱うクローズドループフレームワークであるMedDCRを提案する。
ベンチマークデータセットでは、MedDCRは最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-11-17T13:30:51Z) - MedCodER: A Generative AI Assistant for Medical Coding [3.7153274758003967]
我々は、自動医療コーディングのためのジェネレーティブAIフレームワークであるMedCodERを紹介する。
MedCodERは、ICD(International Classification of Diseases)コード予測において、マイクロF1スコアの0.60を達成している。
疾患診断,ICD符号,エビデンステキストを付加した医療記録を含む新しいデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-18T19:36:33Z) - Leveraging Open-Source Large Language Models for encoding Social Determinants of Health using an Intelligent Router [0.7499722271664144]
SDOH(Social Determinants of Health)は、患者の健康に重要な役割を担っている。
大規模言語モデル(LLM)は、EHRから構造化されていないデータを抽出することを約束する。
我々は,言語モデルルータを用いたSDOH符号化のためのインテリジェントルーティングシステムを導入し,医療記録データをオープンソースLLMに転送する。
論文 参考訳(メタデータ) (2024-05-30T02:33:28Z) - Can GPT-3.5 Generate and Code Discharge Summaries? [45.633849969788315]
ICD-10のコード記述リストに基づいて,9,606個の放電サマリーを生成し,符号化した。
ニューラルネットワークモデルはベースラインと拡張データに基づいて訓練された。
マイクロF1スコアとマクロF1スコアを全コードセット、生成コードおよびそれらの家族について報告する。
論文 参考訳(メタデータ) (2024-01-24T15:10:13Z) - Automatic Coding at Scale: Design and Deployment of a Nationwide System
for Normalizing Referrals in the Chilean Public Healthcare System [0.0]
本稿では,チリの公共医療システムからの紹介で,疾患を自動的にコードする2段階のシステムを提案する。
具体的には,病名認識のための最新のNERモデルと,これらの疾患名に関連付けられた最も関連性の高いコードを割り当てるための検索エンジンシステムを用いている。
本システムでは,カテゴリレベルのMAPスコアが0.63,カテゴリレベルの0.83を得た。
論文 参考訳(メタデータ) (2023-07-09T16:19:35Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Read, Attend, and Code: Pushing the Limits of Medical Codes Prediction
from Clinical Notes by Machines [0.42641920138420947]
医用コード代入マッピングを学習するための、読み取り、 attend、および Code (RAC) モデルを提示する。
RACは、現在最高のマクロF1を18.7%上回るSOTA(the New State of the Art)を確立している。
この新たなマイルストーンは、マシンにおける完全自律型医療コーディング(AMC)への重要な一歩となる。
論文 参考訳(メタデータ) (2021-07-10T06:01:58Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。