論文の概要: A medical coding language model trained on clinical narratives from a population-wide cohort of 1.8 million patients
- arxiv url: http://arxiv.org/abs/2603.00221v1
- Date: Fri, 27 Feb 2026 18:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.115885
- Title: A medical coding language model trained on clinical narratives from a population-wide cohort of 1.8 million patients
- Title(参考訳): 人口18万人のコホートから臨床物語を学習した医療コーディング言語モデル
- Authors: Joakim Edin, Sedrah Butt Balaganeshan, Annike Kjølby Kristensen, Lars Maaløe, Ioannis Louloudis, Søren Brunak,
- Abstract要約: 既存の自動化の取り組みは、現実世界の患者の不均一性を粗末に表現する小さなデータセットに依存している。
我々は、東デンマークのほぼすべての専門分野(2006-2016)で18万人の患者から得た580万の電子健康記録を言語モデルでトレーニングし、ICD-10コードを予測する。
- 参考スコア(独自算出の注目度): 2.2666010316046075
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Medical coding translates clinical documentation into standardized codes for billing, research, and public health, but manual coding is time-consuming and error-prone. Existing automation efforts rely on small datasets that poorly represent real-world patient heterogeneity. We trained a language model on 5.8 million electronic health records from 1.8 million patients across nearly all specialties in Eastern Denmark (2006--2016) to predict ICD-10 codes from clinical notes, medications, and laboratory results. Evaluated on 270,000 held-out patients, the model achieved a micro F1 of 71.8% and a top-10 recall of 95.5%. Performance varied by specialty (F1: 53--91%), with higher scores in specialties with well-defined diagnostic criteria. Codes appearing predominantly as secondary diagnoses had markedly lower F1 scores. For three such codes (suicide-related behaviors, weight disorders, and hypertension), the model identified thousands of uncoded cases, of which 76-86% were confirmed valid upon manual review, suggesting systematic under-coding rather than model error. These findings suggest under-coding of secondary diagnoses in Eastern Denmark during this period, with potential implications for epidemiological research, public health surveillance, and understanding of multimorbidity. Similar time constraints and reimbursement structures in other healthcare systems suggest this may not be isolated to this dataset. The model can automate coding for approximately 50% of cases and provide accurate suggestions for most others, and may offer a practical solution to help capture missed secondary conditions.
- Abstract(参考訳): 医学的コーディングは、臨床文書を請求、研究、公衆衛生のための標準化されたコードに変換するが、手動のコーディングは時間がかかり、エラーが発生しやすい。
既存の自動化の取り組みは、現実世界の患者の不均一性を粗末に表現する小さなデータセットに依存している。
我々は、東デンマークのほぼすべての専門分野(2006-2016)で18万人の患者から得た580万件の電子健康記録を言語モデルでトレーニングし、臨床ノート、医薬品、検査結果からICD-10コードを予測する。
270,000人の患者で評価され、マイクロF1は71.8%、トップ10は95.5%のリコールを達成した。
成績は専門性によって異なる(F1:53--91%)。
主に二次診断として現れるコードは、F1スコアが著しく低い。
このような3つのコード(自殺関連行動、体重障害、高血圧)について、モデルは数千の未コード例を特定し、そのうち76~86%が手動で検証され、モデルエラーよりも体系的なアンダーコーディングが示唆された。
これらの結果は、この期間に東デンマークで二次診断のコーディングが過小評価され、疫学研究、公衆衛生監視、マルチモルビディティーの理解に潜在的に影響を及ぼすことを示唆している。
他の医療システムにおける同様の時間制約や再支払い構造は、このデータセットには分離されない可能性があることを示唆している。
このモデルは、およそ50%のケースでコーディングを自動化し、他のほとんどのケースに対して正確な提案をすることができる。
関連論文リスト
- An Explainable Hybrid AI Framework for Enhanced Tuberculosis and Symptom Detection [55.35661671061754]
結核は、特に資源に制限された遠隔地において、重要な世界的な健康問題である。
本稿では, 胸部X線による疾患および症状の検出を, 2つの頭部と自己監督頭部を統合することで促進する枠組みを提案する。
本モデルでは, 新型コロナウイルス, 結核, 正常症例の鑑別で98.85%の精度が得られ, マルチラベル症状検出では90.09%のマクロF1スコアが得られた。
論文 参考訳(メタデータ) (2025-10-21T17:18:55Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - RuCCoD: Towards Automated ICD Coding in Russian [42.609069328685045]
本研究は, バイオメディカルリソースが限られているロシア語におけるクリニカルコーディングの自動化の実現可能性について検討した。
我々は,1万以上のエンティティと1500以上のユニークなICDコードを含む電子健康記録からの診断フィールドを含む,ICD符号化のための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2025-02-28T17:40:24Z) - Collaborative residual learners for automatic icd10 prediction using
prescribed medications [45.82374977939355]
本稿では,処方用データのみを用いたicd10符号の自動予測のための協調残差学習モデルを提案する。
平均精度0.71および0.57のマルチラベル分類精度、F1スコア0.57および0.38の0.73および0.44の精度を取得し、患者および外来データセットの主診断をそれぞれ予測します。
論文 参考訳(メタデータ) (2020-12-16T07:07:27Z) - Ensemble model for pre-discharge icd10 coding prediction [45.82374977939355]
正確なコード予測のための複数の臨床データソースを組み込んだアンサンブルモデルを提案する。
平均精度は0.73および0.58、F1スコアは0.56および0.35、患者および外来データセットの主診断予測では0.71および0.4のマルチラベル分類精度を得る。
論文 参考訳(メタデータ) (2020-12-16T07:02:56Z) - Classification supporting COVID-19 diagnostics based on patient survey
data [82.41449972618423]
新型コロナウイルス患者の効果的なスクリーニングを可能にするロジスティック回帰とXGBoost分類器が作成された。
得られた分類モデルは、DECODEサービス(decode.polsl.pl)の基礎を提供し、COVID-19病患者のスクリーニング支援に役立てることができる。
このデータセットは、3,000以上のサンプルで構成されており、ポーランドの病院で収集されたアンケートに基づいている。
論文 参考訳(メタデータ) (2020-11-24T17:44:01Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z) - Multi-label natural language processing to identify diagnosis and
procedure codes from MIMIC-III inpatient notes [0.0]
米国では、医療用コードや請求書を含む管理費として、病院支出の25%以上を計上している。
自然言語処理は、構造化されていない臨床ノートからコードやラベルの抽出を自動化することができる。
我々のモデルは、87.08%、F1スコア85.82%、AUC91.76%をトップ10コードで達成した。
論文 参考訳(メタデータ) (2020-03-17T02:56:27Z) - Natural language processing of MIMIC-III clinical notes for identifying
diagnosis and procedures with neural networks [0.0]
臨床ノートを医療コードにマッピングできる自然言語処理モデルの性能について報告する。
当科では, 最多の救急部臨床ノートデータセットMIMIC IIIに最先端の深層学習法UMMFiTを適用した。
我々のモデルは80.3%と80.5%の精度で上位10の診断と手順を予測できたが、上位50のICD-9符号は70.7%と63.9%の精度で予測された。
論文 参考訳(メタデータ) (2019-12-28T04:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。