論文の概要: Synthetic Clinical Notes for Rare ICD Codes: A Data-Centric Framework for Long-Tail Medical Coding
- arxiv url: http://arxiv.org/abs/2511.14112v1
- Date: Tue, 18 Nov 2025 03:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.921863
- Title: Synthetic Clinical Notes for Rare ICD Codes: A Data-Centric Framework for Long-Tail Medical Coding
- Title(参考訳): 希少なICD符号の合成臨床ノート:長距離医用符号化のためのデータ中心フレームワーク
- Authors: Truong Vo, Weiyi Wu, Kaize Ding,
- Abstract要約: MIMIC-IIIのようなデータセットでは、数千のレアおよびゼロショットのICD符号が著しく不足している。
我々は7,902のICDコードをカバーする90,000の合成ノートを生成し、トレーニング分布を大幅に拡大した。
実験の結果,我々はマイクロF1を維持しながらマクロF1を緩やかに改善した。
- 参考スコア(独自算出の注目度): 26.840057002860235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic ICD coding from clinical text is a critical task in medical NLP but remains hindered by the extreme long-tail distribution of diagnostic codes. Thousands of rare and zero-shot ICD codes are severely underrepresented in datasets like MIMIC-III, leading to low macro-F1 scores. In this work, we propose a data-centric framework that generates high-quality synthetic discharge summaries to mitigate this imbalance. Our method constructs realistic multi-label code sets anchored on rare codes by leveraging real-world co-occurrence patterns, ICD descriptions, synonyms, taxonomy, and similar clinical notes. Using these structured prompts, we generate 90,000 synthetic notes covering 7,902 ICD codes, significantly expanding the training distribution. We fine-tune two state-of-the-art transformer-based models, PLM-ICD and GKI-ICD, on both the original and extended datasets. Experiments show that our approach modestly improves macro-F1 while maintaining strong micro-F1, outperforming prior SOTA. While the gain may seem marginal relative to the computational cost, our results demonstrate that carefully crafted synthetic data can enhance equity in long-tail ICD code prediction.
- Abstract(参考訳): 臨床テキストからのICDの自動符号化は、医学的NLPにおいて重要な課題であるが、診断符号の極端に長い尾の分布によって妨げられている。
MIMIC-IIIのようなデータセットでは、数千の希少かつゼロショットのICD符号が著しく不足しており、マクロF1スコアが低い。
本研究では,この不均衡を緩和するために,高品質な合成放電サマリーを生成するデータ中心フレームワークを提案する。
本手法は,実世界の共起パターン,ICD記述,同義語,分類学,それに類する臨床ノートを活用することで,レアコードに固定された現実的なマルチラベル符号セットを構築する。
これらの構造的プロンプトを用いて、7,902のICDコードをカバーする90,000の合成ノートを生成し、トレーニング分布を著しく拡大する。
PLM-ICDとGKI-ICDという、最先端のトランスフォーマーベースの2つのモデルを、オリジナルのデータセットと拡張データセットの両方で微調整する。
実験の結果,我々のアプローチはマイクロF1を維持しながらマクロF1を緩やかに改善し,SOTAよりも優れていた。
計算コストに対して利得は限界に思えるかも知れないが,本研究の結果は,慎重に構築された合成データにより,長期のICDコード予測における株式の獲得が促進されることを実証している。
関連論文リスト
- Probability-Biased Attention over Directed Bipartite Graphs for Long-Tail ICD Coding [12.66839524860715]
コード間の微粒な共起関係をモデル化する学習手法を提案する。
提案手法は,Macro-F1において特に顕著な改良を施した最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-31T04:47:09Z) - CoRelation: Boosting Automatic ICD Coding Through Contextualized Code
Relation Learning [56.782963838838036]
我々は,ICDコード表現の学習を促進するために,文脈的かつ柔軟なフレームワークである新しい手法を提案する。
提案手法では,可能なすべてのコード関係をモデル化する際の臨床ノートのコンテキストを考慮した,依存型学習パラダイムを採用している。
論文 参考訳(メタデータ) (2024-02-24T03:25:28Z) - Can GPT-3.5 Generate and Code Discharge Summaries? [45.633849969788315]
ICD-10のコード記述リストに基づいて,9,606個の放電サマリーを生成し,符号化した。
ニューラルネットワークモデルはベースラインと拡張データに基づいて訓練された。
マイクロF1スコアとマクロF1スコアを全コードセット、生成コードおよびそれらの家族について報告する。
論文 参考訳(メタデータ) (2024-01-24T15:10:13Z) - Automated clinical coding using off-the-shelf large language models [10.365958121087305]
診断用ICD符号を患者病院入院に割り当てる作業は、典型的には、熟練した人間のコーダーによって行われる。
自動ICD符号化への取り組みは、教師付きディープラーニングモデルによって支配されている。
本研究では,既製の事前学習型大規模言語モデルを活用し,実用的ソリューションを開発する。
論文 参考訳(メタデータ) (2023-10-10T11:56:48Z) - Multi-label Few-shot ICD Coding as Autoregressive Generation with Prompt [7.554528566861559]
本研究では,このマルチラベル分類タスクを自己回帰生成タスクに変換する。
ICD符号の高次元空間を直接予測する代わりに、我々のモデルはテキスト記述の低次元を生成する。
MIMIC-III-few実験により,従来のMIMIC-III-full SOTAモデルよりも大幅に優れるマルコF130.2が得られた。
論文 参考訳(メタデータ) (2022-11-24T22:10:50Z) - ICDBigBird: A Contextual Embedding Model for ICD Code Classification [71.58299917476195]
文脈単語埋め込みモデルは、複数のNLPタスクにおいて最先端の結果を得た。
ICDBigBirdは、Graph Convolutional Network(GCN)を統合するBigBirdベースのモデルである。
ICD分類作業におけるBigBirdモデルの有効性を実世界の臨床データセットで実証した。
論文 参考訳(メタデータ) (2022-04-21T20:59:56Z) - Few-Shot Electronic Health Record Coding through Graph Contrastive
Learning [64.8138823920883]
我々は,グラフベースのEHRコーディングフレームワークであるCoGraphを用いて,頻繁かつ希少なICD符号の性能向上を図る。
CoGraphは、異なるICDコードからHEWEグラフ間の類似点と相似点を学習し、それら間で情報を転送する。
2つのグラフコントラスト学習スキームであるGSCLとGECLは、HEWEグラフ構造を利用して、転送可能な特徴を符号化する。
論文 参考訳(メタデータ) (2021-06-29T14:53:17Z) - TransICD: Transformer Based Code-wise Attention Model for Explainable
ICD Coding [5.273190477622007]
国際疾患分類法 (ICD) は, 医療分野の請求システムにおいて有効かつ重要であることが示されている。
現在、ICDコードは手動で臨床メモに割り当てられており、多くのエラーを引き起こす可能性がある。
本稿では,文書のトークン間の相互依存を捉えるためにトランスフォーマーベースのアーキテクチャを適用し,コードワイド・アテンション・メカニズムを用いて文書全体のコード固有表現を学習する。
論文 参考訳(メタデータ) (2021-03-28T05:34:32Z) - Federated Deep AUC Maximization for Heterogeneous Data with a Constant
Communication Complexity [77.78624443410216]
異種胸部データ検出のための改良型FDAMアルゴリズムを提案する。
本研究は,提案アルゴリズムの通信が機械数に強く依存し,精度レベルにも強く依存していることを示す。
FDAMアルゴリズムのベンチマークデータセットと、異なる組織の医療用胸部X線画像に対する効果を実験により実証した。
論文 参考訳(メタデータ) (2021-02-09T04:05:19Z) - Collaborative residual learners for automatic icd10 prediction using
prescribed medications [45.82374977939355]
本稿では,処方用データのみを用いたicd10符号の自動予測のための協調残差学習モデルを提案する。
平均精度0.71および0.57のマルチラベル分類精度、F1スコア0.57および0.38の0.73および0.44の精度を取得し、患者および外来データセットの主診断をそれぞれ予測します。
論文 参考訳(メタデータ) (2020-12-16T07:07:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。